Asumsikan saya memiliki 400 siswa (yang ada di universitas besar) yang harus melakukan proyek ilmu komputer, dan bahwa mereka harus bekerja sendiri (tidak ada kelompok siswa). Contoh proyek dapat membiarkan "menerapkan algoritma transformasi fourier cepat di fortran" (Saya tahu, itu tidak terdengar seksi tetapi itu membuat pertanyaan saya lebih sederhana). Saya yang benar dan saya ingin mengirim rutinitas untuk memeriksa apakah ada kelompok siswa yang telah mengusulkan implementasi yang "terlalu mirip untuk benar-benar ditulis secara independen".
Ini adalah pencarian cluster tanpa pengawasan. Saya pikir pertanyaannya lebih tentang atribut mana yang harus digunakan daripada algoritma pengelompokan mana yang digunakan. Hal pertama yang akan saya lakukan adalah huruf demi huruf histogram. Idealnya, karena penipu lebih pintar dari itu, saya akhirnya akan mencoba permutasi acak yang dipilih dengan baik untuk melihat apakah ada kecocokan histogram huruf (dengan permutasi) yang baik. Juga mereka yang tidak menjelajahi struktur kode, hanya distribusi marginal surat ... solusi apa yang Anda miliki? apakah ada perangkat lunak atau paket yang ada yang didedikasikan untuk masalah itu? (sebenarnya di masa lalu saya guru ilmu komputer mengklaim mereka memiliki jenis alat itu, tapi saya sekarang curiga bahwa mereka memiliki sesuatu yang sangat sederhana)
Saya kira pengacara dari pengembangan perangkat lunak memiliki jenis masalah juga (tidak dengan 1000 siswa, tetapi dengan 2 kode besar ... yang membuat segalanya lebih sulit)?