Cara menguji secara resmi untuk "istirahat" dalam distribusi normal (atau lainnya)


10

Sering muncul dalam ilmu sosial bahwa variabel-variabel yang harus didistribusikan dengan cara tertentu, katakanlah secara normal, pada akhirnya memiliki diskontinuitas dalam distribusi mereka di sekitar titik-titik tertentu.

Misalnya, jika ada cutoff spesifik seperti "passing / failing" dan jika langkah-langkah ini mengalami distorsi, mungkin ada diskontinuitas pada saat itu.

Salah satu contoh yang menonjol (dikutip di bawah) adalah nilai tes standar siswa biasanya didistribusikan pada dasarnya di mana-mana kecuali pada 60% di mana ada sangat sedikit massa dari 50-60% dan massa yang berlebihan sekitar 60-65%. Ini terjadi dalam kasus di mana guru menilai ujian siswa mereka sendiri. Penulis menyelidiki apakah guru benar-benar membantu siswa lulus ujian.

Bukti yang paling meyakinkan tanpa keraguan datang dari menunjukkan grafik kurva lonceng dengan diskontinuitas besar di sekitar batas yang berbeda untuk tes yang berbeda. Namun, bagaimana Anda mengembangkan tes statistik? Mereka mencoba interpolasi dan kemudian membandingkan fraksi di atas atau di bawah dan juga uji-t pada fraksi 5 poin di atas dan di bawah cutoff. Meskipun masuk akal, ini ad-hoc. Adakah yang bisa memikirkan sesuatu yang lebih baik?

Tautan: Aturan dan Kebijaksanaan dalam Evaluasi Siswa dan Sekolah: Kasus Pemeriksaan Bupati New York http://www.econ.berkeley.edu/~jmccrary/nys_regents_djmr_feb_23_2011.pdf

Distribusi skor tes, yang dapat dimanipulasi dalam warna hitam, perhatikan penurunan tajam dalam kepadatan di bawah batas dan kenaikan yang sesuai di atas


Hanya untuk mengklarifikasi - apakah Anda menguji kurangnya generik, misalnya, Normalitas, atau untuk adanya diskontinuitas pada titik yang ditentukan sebelumnya? Contoh Anda adalah yang terakhir, tetapi tentu saja setiap tes good-of-fit, misalnya, Anderson-Darling atau Shapiro-Wilk untuk Normality akan berfungsi, meskipun dengan alternatif yang sangat spesifik Anda dapat membangun tes yang lebih kuat. Juga, dalam grafik Anda di atas Anda ternyata memiliki sampel ribuan; apakah ini juga tipikal?
jbowman

Jawaban:


6

Adalah penting untuk membingkai pertanyaan dengan benar dan untuk mengadopsi model konseptual yang berguna dari skor.

Pertanyaan

Ambang batas kecurangan potensial, seperti 55, 65, dan 85, diketahui secara apriori terlepas dari data: mereka tidak harus ditentukan dari data. (Oleh karena itu ini bukan masalah deteksi outlier atau masalah distribusi pas.) Tes harus menilai bukti bahwa beberapa (tidak semua) skor hanya kurang dari ambang batas ini dipindahkan ke ambang batas tersebut (atau, mungkin, lebih dari ambang batas itu).

Model konseptual

Untuk model konseptual, penting untuk memahami bahwa skor tidak mungkin memiliki distribusi normal (atau distribusi dengan parameter lain yang mudah). Itu sangat jelas dalam contoh yang diposting dan dalam setiap contoh lain dari laporan asli. Skor ini mewakili campuran sekolah; bahkan jika distribusi di sekolah mana pun adalah normal (tidak), campurannya tidak akan normal.

Pendekatan sederhana menerima bahwa ada distribusi skor yang benar: pendekatan yang akan dilaporkan kecuali untuk bentuk kecurangan tertentu. Oleh karena itu pengaturan non-parametrik. Itu tampaknya terlalu luas, tetapi ada beberapa karakteristik distribusi skor yang dapat diantisipasi atau diamati dalam data aktual:

  1. i1ii+11i99

  2. Akan ada variasi dalam penghitungan ini di sekitar beberapa versi halus dari distribusi skor yang diidealkan. Variasi ini biasanya berukuran sama dengan akar kuadrat dari hitungan.

  3. titic(i)δ(ti)c(i)t(i)

  4. δ(i)i=1,2,

tδ(1)=0δ0δ(1)>0

Membangun tes

c(i)=c(i+1)c(i)ittt+1

c(i)=c(i+1)c(i)=c(i+2)2c(i+1)+c(i),

karena pada ini akan menggabungkan penurunan negatif besar dengan negatif dari peningkatan positif besar , sehingga memperbesar efek kecurangan .i=t1c(t+1)c(t)c(t)c(t1)

Saya akan berhipotesis - dan ini dapat diperiksa - bahwa korelasi serial jumlah dekat ambang cukup kecil. (Korelasi serial di tempat lain tidak relevan.) Ini menyiratkan bahwa varians dari adalah sekitarc(t1)=c(t+1)2c(t)+c(t1)

var(c(t1))var(c(t+1))+(2)2var(c(t))+var(c(t1)).

Saya sebelumnya menyarankan bahwa untuk semua (sesuatu yang juga dapat diperiksa). Dari manavar(c(i))c(i)i

z=c(t1)/c(t+1)+4c(t)+c(t1)

kira-kira harus memiliki varian unit. Untuk populasi skor besar (yang diposting sekitar 20.000) kita juga dapat mengharapkan distribusi normal . Karena kami mengharapkan nilai yang sangat negatif untuk menunjukkan pola kecurangan, kami dengan mudah mendapatkan tes ukuran : writing untuk cdf dari distribusi Normal standar, tolak hipotesis bahwa tidak ada kecurangan pada ambang ketika .c(t1)αΦtΦ(z)<α

Contoh

Sebagai contoh, perhatikan set benar skor tes, diambil iid dari campuran tiga distribusi normal:

Histogram skor sebenarnya

Untuk ini saya menerapkan jadwal kecurangan di ambang didefinisikan oleh . Ini memfokuskan hampir semua kecurangan pada satu atau dua skor tepat di bawah 65:t=65δ(i)=exp(2i)

Histogram skor setelah selingkuh

Untuk memahami apa yang dilakukan tes, saya menghitung untuk setiap skor, bukan hanya , dan memplotnya dengan skor:zt

Plot Z

(Sebenarnya, untuk menghindari masalah dengan jumlah kecil, saya pertama-tama menambahkan 1 ke setiap hitungan dari 0 hingga 100 untuk menghitung penyebut .)z

Fluktuasi dekat 65 terlihat jelas, seperti kecenderungan untuk semua fluktuasi lain sekitar 1 dalam ukuran, konsisten dengan asumsi pengujian ini. Statistik uji adalah dengan nilai-p yang sesuai dari , hasil yang sangat signifikan. Perbandingan visual dengan gambar dalam pertanyaan itu sendiri menunjukkan tes ini akan mengembalikan nilai p setidaknya sekecil.z=4.19Φ(z)=0.0000136

(Harap dicatat, bahwa tes itu sendiri tidak menggunakan plot ini, yang ditunjukkan untuk menggambarkan ide-ide. Tes ini hanya melihat pada nilai yang diplot pada ambang pintu, di tempat lain. Akan tetapi praktik yang baik adalah membuat plot seperti itu. untuk mengonfirmasi bahwa statistik uji benar-benar menentukan ambang yang diharapkan sebagai lokus kecurangan dan bahwa semua skor lainnya tidak mengalami perubahan seperti itu. Di sini, kita melihat bahwa pada semua skor lainnya ada fluktuasi antara sekitar -2 dan 2, tetapi jarang Perhatikan juga, bahwa seseorang tidak perlu benar-benar menghitung standar deviasi dari nilai-nilai dalam plot ini untuk menghitung , dengan demikian menghindari masalah yang terkait dengan efek kecurangan yang menggelembungkan fluktuasi di beberapa lokasi.)z

Saat menerapkan tes ini ke beberapa ambang batas, penyesuaian Bonferroni pada ukuran tes akan lebih bijaksana. Penyesuaian tambahan saat diterapkan ke beberapa tes sekaligus juga merupakan ide yang bagus.

Evaluasi

Prosedur ini tidak dapat secara serius diusulkan untuk digunakan sampai diuji pada data aktual. Cara yang baik adalah mengambil skor untuk satu tes dan menggunakan skor non-kritis untuk tes sebagai ambang batas. Agaknya ambang batas semacam itu tidak dikenakan bentuk kecurangan ini. Simulasikan kecurangan sesuai dengan model konseptual ini dan pelajari distribusi simulasi . Ini akan menunjukkan (a) apakah nilai-p itu akurat dan (b) kekuatan tes untuk menunjukkan bentuk kecurangan yang disimulasikan. Memang, seseorang dapat menggunakan studi simulasi seperti itu pada data yang sedang dievaluasi, memberikan cara yang sangat efektif untuk menguji apakah tes tersebut sesuai dan apa kekuatan sebenarnya. Karena statistik ujizz sangat sederhana, simulasi akan dapat dilakukan dan cepat dijalankan.


Tes ini perlu sedikit disesuaikan karena ekspektasi adalah (kurang-lebih) sebanding dengan turunan kedua dari distribusi. Dalam contoh, di mana ambang dekat mode, bahwa turunan kedua mendekati nol sehingga tidak ada masalah, tetapi untuk ambang di area kelengkungan tinggi (sekitar 70 atau 90 dalam data simulasi) penyesuaian bisa menjadi material. Jika saya mendapat kesempatan, saya akan mengedit jawaban ini. z
whuber

1

Saya menyarankan pemasangan model yang secara eksplisit memprediksi penurunan dan kemudian menunjukkan bahwa itu secara signifikan lebih cocok dengan data daripada yang naif.

Anda memerlukan dua komponen:

  • distribusi skor awal,
  • prosedur pengecekan ulang (jujur ​​atau tidak) skor ketika seseorang cocok di bawah ambang batas.

Salah satu model yang mungkin untuk ambang tunggal (dari nilai ) adalah sebagai berikut: manat

pfinal(s)=pinitial(s)pinitial(s)m(st)+δ(s=t)s=0t1pinitial(s)m(st),
  • pfinal(s) - distribusi probabilitas skor akhir,
  • pinitial(s) - distribusi probabilitas jika tidak ada ambang batas,
  • m(st) - probabilitas skor manipulasi menjadi skor kelulusan ,st
  • δ(s=t) adalah delta Kronecker, yaitu 1 jika dan 0 sebaliknya.s=t

Biasanya Anda tidak bisa naik banyak skor. Saya akan menduga peluruhan eksponensial , di mana adalah proporsi skor yang diperiksa ulang (dimanipulasi).m(st)aqtsa

Sebagai distribusi awal Anda dapat mencoba menggunakan distribusi Poisson atau Gaussian. Tentu saja idealnya memiliki tes yang sama tetapi untuk satu kelompok guru memberikan ambang batas dan untuk yang lain - tidak ada ambang batas.

Jika ada lebih banyak ambang maka seseorang dapat menerapkan rumus yang sama tetapi dengan koreksi untuk setiap . Mungkin akan berbeda juga (misalnya karena perbedaan antara gagal-pass bisa lebih penting daripada antara dua nilai yang lewat).tiai

Catatan:

  • Kadang-kadang ada prosedur pengujian ulang jika hanya ada di bawah nilai kelulusan. Maka lebih sulit untuk mengatakan contoh mana yang jujur ​​dan mana - tidak.
  • m(st) pasti akan tergantung pada jenis tes. Misalnya jika ada pertanyaan terbuka, maka beberapa jawaban mungkin ambigu dan jumlahnya tergantung pada (jadi untuk skor rendah mungkin lebih mudah untuk meningkatkan skor). Sedangkan untuk tes pilihan-tertutup harus ada sedikit atau tidak ada perbedaan pada jumlah jawaban yang benar dan salah.s
  • Kadang-kadang skor 'dikoreksi' mungkin di atas - alih-alih diidealkan orang dapat menyambungkan sth berbeda.tδ(s=t)

Saya tidak yakin menjawab pertanyaan persis saya. Dalam hal ini, kami tidak memiliki kemampuan untuk memeriksa ulang ujian apa pun. Semua yang diamati adalah distribusi skor akhir. Distribusi sebagian besar normal. Kecuali, di sekitar titik cutoff tertentu di mana kami menduga manipulasi, ada jeda di kurva normal. Jika nol adalah bahwa kurva akan "halus" pada saat itu, bagaimana kita bisa mengujinya terhadap hipotesis alternatif di mana itu "bergelombang"
d_a_c321

Saya pikir saya mengecilkan pertanyaannya. Maksud saya adalah: fit Gaussian (2 parameter) dan hitung , lalu pas (2 parameter untuk Gaussian + (t +1) parameter untuk ambang batas) dan hitung . Menghitung kehalusan (misalnya dalam bentuk ) mungkin menarik tetapi penting untuk memeriksa asumsi yang mendasarinya dan lain-lain ( mis. untuk tes dengan banyak pertanyaan untuk 2 poin mungkin ada jaggedness "awal" yang cukup tinggi). Jika seseorang memiliki akses ke data mentah (yaitu semua jawaban, tidak hanya skor total) maka ada lebih banyak ruang untuk pengujian ...X2pfinalX2s=099|p(s+1)p(s)|2
Piotr Migdal

1

Saya akan membagi masalah ini menjadi dua sub-masalah:

  • Perkirakan parameter distribusi agar sesuai dengan data
  • Lakukan deteksi outlier menggunakan distribusi yang dipasang

Ada berbagai cara untuk menangani salah satu dari submasalah tersebut.

Tampak bagi saya bahwa distribusi Poisson akan sesuai dengan data, jika didistribusikan secara independen dan identik (iid) , yang tentu saja kami pikir tidak. Jika kita secara naif mencoba memperkirakan parameter distribusi kita akan condong oleh outlier. Dua cara yang mungkin untuk mengatasinya adalah dengan menggunakan teknik Robust Regression , atau metode heuristik seperti cross-validation.

Untuk deteksi outlier ada lagi banyak pendekatan. Yang paling sederhana adalah dengan menggunakan interval kepercayaan dari distribusi yang kami pasang di tahap 1. Metode lain termasuk metode bootstrap dan pendekatan Monte-Carlo.

Meskipun ini tidak akan memberi tahu Anda bahwa ada "lompatan" dalam distribusi, itu akan memberi tahu Anda apakah ada lebih banyak pencilan daripada yang diharapkan untuk ukuran sampel.

Pendekatan yang lebih kompleks adalah membangun berbagai model untuk data, seperti distribusi majemuk, dan menggunakan beberapa jenis metode perbandingan model (AIC / BIC) untuk menentukan model mana yang paling cocok untuk data. Namun jika Anda hanya mencari "penyimpangan dari distribusi yang diharapkan" maka ini sepertinya berlebihan.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.