PERTANYAAN:
Saya memiliki data biner pada pertanyaan ujian (benar / salah). Beberapa individu mungkin memiliki akses sebelumnya ke subset pertanyaan dan jawaban yang benar. Saya tidak tahu siapa, berapa banyak, atau yang mana. Jika tidak ada kecurangan, anggaplah saya akan memodelkan kemungkinan respons yang benar untuk item sebagai , di mana \ beta_i mewakili kesulitan pertanyaan dan z adalah kemampuan laten individu. Ini adalah model respons barang yang sangat sederhana yang dapat diperkirakan dengan fungsi seperti ltm's rasch () di R. Selain perkiraan \ hat {z} _j (di mana j indeks individu) dari variabel laten, saya memiliki akses ke perkiraan terpisah \ hat {q} _jj q j dari variabel laten yang sama yang berasal dari dataset lain di mana kecurangan tidak dimungkinkan.
Tujuannya adalah untuk mengidentifikasi orang-orang yang kemungkinan curang dan barang yang mereka sukai. Apa saja pendekatan yang mungkin Anda ambil? Selain data mentah, , , dan semuanya tersedia, meskipun dua yang pertama akan memiliki beberapa bias karena kecurangan. Idealnya, solusinya akan datang dalam bentuk pengelompokan / klasifikasi probabilistik, meskipun ini tidak perlu. Ide-ide praktis sangat disambut baik seperti pendekatan formal.
Sejauh ini, saya telah membandingkan korelasi skor pertanyaan untuk pasangan individu dengan skor lebih tinggi vs rendah (di mana adalah indeks kasar probabilitas yang mereka kecurangan). Sebagai contoh, saya mengurutkan individu berdasarkan dan kemudian merencanakan korelasi pasangan skor pertanyaan individu. Saya juga mencoba memplot korelasi rata-rata skor untuk individu yang nilai lebih besar dari jumlah kuantil dari , sebagai fungsi dari . Tidak ada pola yang jelas untuk kedua pendekatan tersebut.
MEMPERBARUI:
Saya akhirnya menggabungkan ide-ide dari @SheldonCooper dan makalah Freakonomics yang membantu yang ditunjukkan @whuber. Selamat datang ide / komentar / kritik lainnya.
Biarkan menjadi skor biner orang pada pertanyaan . Perkirakan logit model respons item (Pr (X_ {ij} = 1 | z_j) = \ beta_i + z_j, di
Probabilitas skor yang diamati , tergantung pada kemudahan item dan kemampuan orang, dapat ditulis mana adalah probabilitas prediksi dari respons yang benar, dan adalah logit. Kemudian, tergantung pada karakteristik item dan orang, probabilitas gabungan bahwa orang memiliki pengamatan adalah dan juga, probabilitas gabungan bahwa item memiliki pengamatan p i j = P r ( X i j = x i j | ^ β i , ^ q j ) = P i j ( ^ β i , ^ q j ) x i j ( 1 - P i j ( ^ β i i j , P i j ( ^ β
Langkah tambahan yang saya coba adalah mengambil r% dari orang yang paling tidak mungkin (yaitu orang dengan r% terendah dari nilai p_j yang diurutkan), menghitung jarak rata-rata antara skor yang diamati x_j (yang harus dikorelasikan untuk orang dengan r rendah, yang kemungkinan curang), dan plot untuk r = 0,001, 0,002, ..., 1.000. Jarak rata-rata meningkat untuk r = 0,001 ke r = 0,025, mencapai maksimum, dan kemudian menurun perlahan ke minimum pada r = 1. Tidak persis apa yang saya harapkan.