Apa statistik uji dalam uji eksak Fisher?

9

Untuk tabel kontingensi 2 oleh 2, beberapa mengatakan uji eksak Fisher menggunakan hitung dalam (1,1) sel dalam tabel sebagai statistik uji, dan di bawah hipotesis nol, akan memiliki distribusi hipergeometrik. $X_{1,1}$ $X_{1,1}$

Beberapa mengatakan statistik pengujiannya adalah di mana adalah rata-rata dari distribusi hypergeometric (disebutkan di atas) di bawah nol. Juga dikatakan bahwa nilai-p ditentukan berdasarkan tabel distribusi hipergometrik. Saya bertanya-tanya apakah ada alasan untuk mengurangi nilai mean dan kemudian mengambil nilai absolut? tidak memiliki distribusi hypergeometrik di bawah nol, bukan?

| X_{1, 1} - μ |

$|X_{1,1} - \mu|$

μ

$\mu$

| X_{1, 1} - μ |

$|X_{1,1} - \mu|$

hypothesis-testing fishers-exact hypergeometric

— Tim
sumber

10

(Untuk membuat pengertian kita sedikit lebih tepat, mari kita sebut 'statistik uji' distribusi dari hal yang kita cari untuk benar-benar menghitung nilai-p. Ini berarti bahwa untuk uji-dua-ekor, statistik uji kita akan menjadi daripada ) $|T|$ $T$

Apa statistik uji tidak adalah menginduksi memesan pada ruang sampel (atau lebih ketat, seorang pemesanan parsial), sehingga Anda dapat mengidentifikasi kasus-kasus ekstrim (yang paling konsisten dengan alternatif).

Dalam hal uji eksak Fisher, sudah ada urutan dalam arti - yang merupakan probabilitas dari berbagai tabel 2x2 sendiri. Seperti yang terjadi, mereka sesuai dengan pemesanan pada dalam arti bahwa nilai terbesar atau terkecil adalah 'ekstrim' dan mereka juga yang dengan probabilitas terkecil. Jadi daripada melihat nilai-nilai dengan cara yang Anda sarankan, seseorang dapat dengan mudah bekerja dari ujung besar dan kecil, pada setiap langkah hanya menambahkan nilai mana saja ( terbesar atau terkecil $X_{1,1}$ $X_{1,1}$ $X_{1,1}$ $X_{1,1}$ -nilai belum ada di sana) memiliki probabilitas terkecil yang terkait dengannya, berlanjut sampai Anda mencapai tabel yang diamati; pada inklusi, probabilitas total dari semua tabel ekstrim tersebut adalah nilai-p.

Ini sebuah contoh:

fungsi probabilitas hipergeometrik

> data.frame(x=x,prob=dhyper(x,9,12,10),rank=rank(dhyper(x,9,12,10)))
   x         prob rank
1  0 1.871194e-04    2
2  1 5.613581e-03    4
3  2 5.052223e-02    6
4  3 1.886163e-01    8
5  4 3.300786e-01   10
6  5 2.829245e-01    9
7  6 1.178852e-01    7
8  7 2.245433e-02    5
9  8 1.684074e-03    3
10 9 3.402171e-05    1

Kolom pertama adalah nilai , kolom kedua adalah probabilitas dan kolom ketiga adalah urutan yang diinduksi. $X_{1,1}$

Jadi dalam kasus tertentu dari uji eksak Fisher, probabilitas setiap tabel (ekuivalen, dari setiap nilai ) dapat dianggap sebagai statistik uji aktual $X_{1,1}$ .

Jika Anda membandingkan statistik pengujian yang disarankan, itu menginduksi urutan yang sama dalam kasus ini (dan saya percaya itu melakukannya secara umum tetapi saya belum memeriksa), bahwa nilai-nilai yang lebih besar dari statistik itu adalah nilai-nilai probabilitas yang lebih kecil, sehingga dapat juga dianggap sebagai 'statistik' - tetapi begitu banyak kuantitas lainnya - memang semua yang mempertahankan urutan dalam semua kasus adalah statistik uji yang setara, karena selalu menghasilkan nilai-p yang identik. $|X_{1,1}-\mu|$ $X_{1,1}$

Juga catat bahwa dengan gagasan yang lebih tepat tentang 'statistik uji' yang diperkenalkan di awal, tidak ada statistik uji yang mungkin untuk masalah ini yang benar-benar memiliki distribusi hipergeometrik; memang, tetapi itu sebenarnya bukan statistik uji yang cocok untuk tes dua sisi (jika kita melakukan tes satu sisi di mana hanya lebih banyak asosiasi di diagonal utama dan tidak di diagonal kedua dianggap konsisten dengan alternatif, maka itu akan menjadi statistik uji). Ini hanya masalah satu sisi / dua sisi yang sama dengan yang saya mulai. $X_{1,1}$

[Sunting: beberapa program menyajikan statistik uji untuk uji Fisher; Saya anggap ini akan menjadi perhitungan tipe -2logL yang secara asimptot dapat dibandingkan dengan chi-square. Beberapa juga dapat menyajikan odds-ratio atau log-nya tetapi itu tidak cukup setara.]

— Glen_b -Reinstate Monica
sumber

Terima kasih, Glen_b! distribusi bawah nol adalah distribusi hypergeometrik, yang tidak simetris di sekitar mean . Jadi saya bertanya-tanya apakahstatistik uji yang wajar?

X_{1, 1}

$X_{1,1}$

μ

$\mu$

| X_{1, 1} - μ |

$|X_{1,1} - \mu|$

— Tim

Tampaknya ini adalah statistik uji yang sangat masuk akal, karena sepenuhnya dapat ditafsirkan dan mudah dipahami. Memang tidak ada statistik yang mungkin akan memiliki distribusi simetris. Mari kita lupakan spesifik dari tes Fisher sejenak - jika statistik itu bermakna bagi Anda, Anda dapat menghitung tes yang tepat berdasarkan itu (menggunakan perhitungan hypergeometrik untuk menemukan probabilitas). Jika Anda ingin menunjukkan bahwa mereka mendorong pemesanan yang sama dalam semua kasus, itu mungkin pertanyaan baru.

— Glen_b -Reinstate Monica

6

$|X_{1,1} - \mu|$ tidak dapat memiliki distribusi hypergeometric secara umum karena tidak perlu menjadi nilai integer dan kemudiantidak akan menjadi bilangan bulat. Tetapi secara kondisional pada margin, akan memiliki distribusi hypergeometric. $\mu$ $|X_{1,1} - \mu|$ $X_{1,1}$

Jika Anda melakukannya dengan benar dan memperbaiki margin ke nilai yang diketahui, Anda dapat menganggap (atau sel lainnya) sebagai statistik Anda. Dengan analogi menggambar bola dari guci yang berisi bola putih dan bola hitam tanpa penggantian, dapat diartikan sebagai jumlah bola putih yang ditarik, di mana adalah jumlah dari baris pertama, adalah jumlah dari baris kedua, adalah jumlah dari kolom pertama. $X_{1,1}$ $k$ $W$ $B$ $X_{1,1}$ $B$ $W$ $k$

— gui11aume
sumber

4

Tidak benar-benar memilikinya. Statistik uji adalah anomali historis - satu-satunya alasan kami memiliki statistik uji adalah untuk mendapatkan nilai p. Uji pasti Fisher melompati statistik uji dan langsung menuju ke nilai-p.

— Jeremy Miles
sumber

Terima kasih, tetapi apakah benar-benar tidak ada statistik uji? Bagaimana Anda menentukan nilai p?

— Tim

Hasil uji eksak Fisher adalah nilai-p.

— Jeremy Miles

@JeremyMiles: Maksud Anda statistik uji adalah anomali historis sebelum komputasi berbiaya rendah, pengguna menghitung Z, t, dan seterusnya, lalu membandingkan statistik uji ini dengan tabel yang dihitung sebelumnya untuk menentukan signifikansi statistik, dan sebagai hasilnya, banyak pengguna saat ini dari statistik inferensial masih berpikir dalam hal statistik pengujian ketika mereka dapat dengan mudah memberikan nilai p? Dengan kata lain, apakah ini semacam efek generasi?

— rabidotter

1

@ rabidotter - ya, saya kira saya tahu. Anda melihat orang yang menulis "F = 14,352, df = 2, 568, p <0,05". Cukup banyak satu-satunya alasan siapa pun yang peduli tentang F adalah untuk menghitung P, namun mereka memberikan F untuk presisi besar, dan p untuk presisi sangat sedikit.

— Jeremy Miles