Uji Tepat Fisher dengan bobot?


12

Adakah yang tahu tentang variasi dari Exact Test Fisher yang mempertimbangkan bobot? Misalnya bobot sampel .
Jadi alih-alih tabel silang 2x2 biasa, setiap titik data memiliki nilai "massa" atau "ukuran" yang menimbang titik.

Contoh data:

A B weight
N N 1
N N 3
Y N 1
Y N 2
N Y 6
N Y 7
Y Y 1
Y Y 2
Y Y 3
Y Y 4

Fisher's Exact Test kemudian menggunakan tabel silang 2x2 ini:

A\B  N  Y All
 N   2  2   4
 Y   2  4   6
All  4  6  10

Jika kita menganggap bobot sebagai jumlah poin data 'aktual', ini akan menghasilkan:

A\B  N  Y All
 N   4 13  17
 Y   3 10  13
All  7 23  30

Tapi itu akan menghasilkan kepercayaan diri yang terlalu tinggi. Satu titik data yang berubah dari N / Y ke N / N akan membuat perbedaan yang sangat besar dalam statistik.
Plus, itu tidak akan berhasil jika ada bobot yang mengandung pecahan.

Jawaban:


10

Saya memiliki kecurigaan bahwa tes 'tepat' dan bobot sampel pada dasarnya adalah konsep yang tidak kompatibel. Saya memeriksa di Stata, yang memiliki fasilitas yang baik untuk survei sampel dan yang masuk akal untuk tes eksak, dan 8 statistik uji yang memungkinkan untuk tab silang dengan bobot sampel tidak termasuk tes 'tepat' seperti Fisher.

Entri manual Stata yang relevan (untuk svy: tabulate twoway ) menyarankan penggunaan tes default dalam semua kasus. Metode default ini didasarkan pada statistik chi-squared Pearson yang biasa. Kutipan:

"Untuk menjelaskan desain survei, statistik diubah menjadi statistik F dengan derajat kebebasan noninteger dengan menggunakan koreksi Rao dan Scott (1981, 1984) orde dua".

Referensi:

  • Rao, JNK, dan AJ Scott. 1981. Analisis data kategorikal dari survei sampel kompleks: Tes Chi-squared untuk kebaikan dan kemandirian dalam tabel dua arah. Jurnal Asosiasi Statistik Amerika 76: 221–230.
  • Rao, JNK, dan AJ Scott. 1984. Pada tes chi-squared untuk tabel kontingensi multi jalur dengan proporsi sel diperkirakan dari data survei. Annals of Statistics 12: 46-60.

3

Pertanyaan menarik. Apa yang Anda maksud dengan berat?

Saya akan cenderung melakukan bootstrap ... pilih statistik favorit Anda (yaitu Fisher's Exact), dan hitung pada data Anda. Kemudian tetapkan sel baru untuk setiap contoh sesuai dengan hipotesis nol Anda, dan ulangi proses 999 kali. Ini akan memberikan distribusi empiris yang cukup baik untuk statistik uji Anda di bawah hipotesis nol, dan memungkinkan penghitungan mudah nilai-p Anda!


Terima kasih! Tapi saya berharap untuk statistik yang lebih cepat dan lebih stabil untuk menghitung ...
Michel de Ruiter

2

Satu hal cepat tentang bobot sampel - biasanya merupakan cara untuk menggabungkan beberapa informasi tentang populasi tempat seseorang mengambil sampel - tetapi biasanya mereka didasarkan pada skenario jenis "sampel besar" (biasanya dibatasi prediksi BLUP atau BLUE yang disamarkan). Jadi saya akan membayangkan bahwa sampel bobot mungkin tidak akan lebih baik daripada tidak ada bobot. Apa yang lebih baik menurut saya adalah menggunakan informasi tentang populasi yang menjadi dasar desain sampel secara langsung.

Misalnya, atas dasar apa probabilitas seleksi dihitung? Taruhan saya adalah bahwa Anda mengetahui jumlah populasi atau jenis populasi yang tidak melibatkan A atau B (misalnya usia berdasarkan kelompok jenis kelamin). Jika ini tidak benar maka saya akan membuang-buang ruang, tetapi jika itu benar, dan seandainya Anda memiliki total populasi untuk grup (atau strata), dan di dalam setiap grup Anda memiliki "mini" 2 oleh 2 tabel kontingensi. Jadi sekarang kita dapat menulis sebagai "target" dari inferensi kami. Atau mungkin itu jumlah yang merupakan target inferensi (berapa banyak dalam populasi yang memberikan respons N / N ??). Anda kemudian mencoba tentangR1,,RkkR1;11,R1;12,R1;21,R1;22,l=1kRl;ijRl;ijdari angka sampel tunduk pada batasan yang untuk . (maksimal siapa pun?)rl;iji,jRl;ij=Rl(l=1,,k)

Perhatikan bahwa jika probabilitas pengambilan sampel hanya didasarkan pada data apa yang mungkin Anda terima, maka itu tidak relevan (dan uji Fisher yang tepat berlaku), karena begitu Anda menerima data, Anda tahu sampel apa yang Anda terima. Jadi hal yang koheren untuk dilakukan adalah memperbarui probabilitas pengambilan sampel ke jika unit ke-m ada dalam sampel, dan jika tidak ada dalam sampel. Namun, biasanya desain didasarkan pada informasi lebih dari sekedar data yang cenderung diamati. tetapi perhatikan bahwa itu adalah informasi, bukan desain survei yang penting. Kesimpulan berdasarkan desain hanyalah cara yang agak efisien untuk menggabungkan semua informasi itu ke dalam analisis Anda.P ( D m ) = 0P(Dm)=1P(Dm)=0

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.