Adalah penting untuk membingkai pertanyaan dengan benar dan untuk mengadopsi model konseptual yang berguna dari skor.
Pertanyaan
Ambang batas kecurangan potensial, seperti 55, 65, dan 85, diketahui secara apriori terlepas dari data: mereka tidak harus ditentukan dari data. (Oleh karena itu ini bukan masalah deteksi outlier atau masalah distribusi pas.) Tes harus menilai bukti bahwa beberapa (tidak semua) skor hanya kurang dari ambang batas ini dipindahkan ke ambang batas tersebut (atau, mungkin, lebih dari ambang batas itu).
Model konseptual
Untuk model konseptual, penting untuk memahami bahwa skor tidak mungkin memiliki distribusi normal (atau distribusi dengan parameter lain yang mudah). Itu sangat jelas dalam contoh yang diposting dan dalam setiap contoh lain dari laporan asli. Skor ini mewakili campuran sekolah; bahkan jika distribusi di sekolah mana pun adalah normal (tidak), campurannya tidak akan normal.
Pendekatan sederhana menerima bahwa ada distribusi skor yang benar: pendekatan yang akan dilaporkan kecuali untuk bentuk kecurangan tertentu. Oleh karena itu pengaturan non-parametrik. Itu tampaknya terlalu luas, tetapi ada beberapa karakteristik distribusi skor yang dapat diantisipasi atau diamati dalam data aktual:
i−1ii+11≤i≤99
Akan ada variasi dalam penghitungan ini di sekitar beberapa versi halus dari distribusi skor yang diidealkan. Variasi ini biasanya berukuran sama dengan akar kuadrat dari hitungan.
ti≥tic(i)δ(t−i)c(i)t(i)
δ(i)i=1,2,…
tδ(1)=0δ0δ(1)>0
Membangun tes
c′(i)=c(i+1)−c(i)ittt+1
c′′(i)=c′(i+1)−c′(i)=c(i+2)−2c(i+1)+c(i),
karena pada ini akan menggabungkan penurunan negatif besar dengan negatif dari peningkatan positif besar , sehingga memperbesar efek kecurangan .i=t−1c(t+1)−c(t)c(t)−c(t−1)
Saya akan berhipotesis - dan ini dapat diperiksa - bahwa korelasi serial jumlah dekat ambang cukup kecil. (Korelasi serial di tempat lain tidak relevan.) Ini menyiratkan bahwa varians dari adalah sekitarc′′(t−1)=c(t+1)−2c(t)+c(t−1)
var(c′′(t−1))≈var(c(t+1))+(−2)2var(c(t))+var(c(t−1)).
Saya sebelumnya menyarankan bahwa untuk semua (sesuatu yang juga dapat diperiksa). Dari manavar(c(i))≈c(i)i
z=c′′(t−1)/c(t+1)+4c(t)+c(t−1)−−−−−−−−−−−−−−−−−−−−√
kira-kira harus memiliki varian unit. Untuk populasi skor besar (yang diposting sekitar 20.000) kita juga dapat mengharapkan distribusi normal . Karena kami mengharapkan nilai yang sangat negatif untuk menunjukkan pola kecurangan, kami dengan mudah mendapatkan tes ukuran : writing untuk cdf dari distribusi Normal standar, tolak hipotesis bahwa tidak ada kecurangan pada ambang ketika .c′′(t−1)αΦtΦ(z)<α
Contoh
Sebagai contoh, perhatikan set benar skor tes, diambil iid dari campuran tiga distribusi normal:
Untuk ini saya menerapkan jadwal kecurangan di ambang didefinisikan oleh . Ini memfokuskan hampir semua kecurangan pada satu atau dua skor tepat di bawah 65:t=65δ(i)=exp(−2i)
Untuk memahami apa yang dilakukan tes, saya menghitung untuk setiap skor, bukan hanya , dan memplotnya dengan skor:zt
(Sebenarnya, untuk menghindari masalah dengan jumlah kecil, saya pertama-tama menambahkan 1 ke setiap hitungan dari 0 hingga 100 untuk menghitung penyebut .)z
Fluktuasi dekat 65 terlihat jelas, seperti kecenderungan untuk semua fluktuasi lain sekitar 1 dalam ukuran, konsisten dengan asumsi pengujian ini. Statistik uji adalah dengan nilai-p yang sesuai dari , hasil yang sangat signifikan. Perbandingan visual dengan gambar dalam pertanyaan itu sendiri menunjukkan tes ini akan mengembalikan nilai p setidaknya sekecil.z=−4.19Φ(z)=0.0000136
(Harap dicatat, bahwa tes itu sendiri tidak menggunakan plot ini, yang ditunjukkan untuk menggambarkan ide-ide. Tes ini hanya melihat pada nilai yang diplot pada ambang pintu, di tempat lain. Akan tetapi praktik yang baik adalah membuat plot seperti itu. untuk mengonfirmasi bahwa statistik uji benar-benar menentukan ambang yang diharapkan sebagai lokus kecurangan dan bahwa semua skor lainnya tidak mengalami perubahan seperti itu. Di sini, kita melihat bahwa pada semua skor lainnya ada fluktuasi antara sekitar -2 dan 2, tetapi jarang Perhatikan juga, bahwa seseorang tidak perlu benar-benar menghitung standar deviasi dari nilai-nilai dalam plot ini untuk menghitung , dengan demikian menghindari masalah yang terkait dengan efek kecurangan yang menggelembungkan fluktuasi di beberapa lokasi.)z
Saat menerapkan tes ini ke beberapa ambang batas, penyesuaian Bonferroni pada ukuran tes akan lebih bijaksana. Penyesuaian tambahan saat diterapkan ke beberapa tes sekaligus juga merupakan ide yang bagus.
Evaluasi
Prosedur ini tidak dapat secara serius diusulkan untuk digunakan sampai diuji pada data aktual. Cara yang baik adalah mengambil skor untuk satu tes dan menggunakan skor non-kritis untuk tes sebagai ambang batas. Agaknya ambang batas semacam itu tidak dikenakan bentuk kecurangan ini. Simulasikan kecurangan sesuai dengan model konseptual ini dan pelajari distribusi simulasi . Ini akan menunjukkan (a) apakah nilai-p itu akurat dan (b) kekuatan tes untuk menunjukkan bentuk kecurangan yang disimulasikan. Memang, seseorang dapat menggunakan studi simulasi seperti itu pada data yang sedang dievaluasi, memberikan cara yang sangat efektif untuk menguji apakah tes tersebut sesuai dan apa kekuatan sebenarnya. Karena statistik ujizz sangat sederhana, simulasi akan dapat dilakukan dan cepat dijalankan.