Memahami nilai-p

Saya tahu bahwa ada banyak bahan yang menjelaskan nilai-p. Namun konsep ini tidak mudah dipahami dengan kuat tanpa klarifikasi lebih lanjut.

Berikut adalah definisi nilai p dari Wikipedia:

Nilai-p adalah probabilitas memperoleh statistik uji setidaknya paling ekstrem seperti yang sebenarnya diamati, dengan asumsi bahwa hipotesis nol itu benar. ( http://en.wikipedia.org/wiki/P-value )

Pertanyaan pertama saya berkaitan dengan ungkapan "paling tidak sama ekstrimnya dengan yang benar-benar diamati." Pemahaman saya tentang logika yang mendasari penggunaan nilai-p adalah sebagai berikut: Jika nilai-p kecil, tidak mungkin bahwa pengamatan terjadi dengan asumsi hipotesis nol dan kita mungkin perlu hipotesis alternatif untuk menjelaskan pengamatan. Jika p-value tidak begitu kecil, kemungkinan pengamatan hanya terjadi dengan mengasumsikan hipotesis nol dan hipotesis alternatif tidak diperlukan untuk menjelaskan pengamatan. Jadi, jika seseorang ingin menekankan hipotesis ia harus menunjukkan bahwa nilai p dari hipotesis nol sangat kecil. Dengan mengingat pandangan ini, pemahaman saya tentang ekspresi ambigu adalah bahwa p-value adalah $\min[P(X<x),P(x<X)]$ , jika PDF dari statistik adalah unimodal, di mana $X$ adalah statistik uji dan $x$ adalah nilainya yang diperoleh dari pengamatan. Apakah ini benar? Jika benar, apakah masih berlaku untuk menggunakan statistik bimodal dari statistik? Jika dua puncak dari PDF dipisahkan dengan baik dan nilai yang diamati adalah suatu tempat di wilayah kepadatan probabilitas rendah antara dua puncak, interval mana yang memberikan nilai p-probabilitas?

Pertanyaan kedua adalah tentang definisi p-value lain dari Wolfram MathWorld:

Probabilitas bahwa suatu varian akan menganggap suatu nilai lebih besar dari atau sama dengan nilai yang diamati secara kebetulan. ( http://mathworld.wolfram.com/P-Value.html )

Saya mengerti bahwa ungkapan "secara kebetulan" harus ditafsirkan sebagai "mengasumsikan hipotesis nol". Apakah itu benar?

Pertanyaan ketiga berkaitan dengan penggunaan "hipotesis nol". Mari kita asumsikan bahwa seseorang ingin bersikeras bahwa koin itu adil. Dia menyatakan hipotesis karena frekuensi relatif kepala adalah 0,5. Maka hipotesis nol adalah "frekuensi relatif kepala bukan 0,5." Dalam hal ini, sedangkan menghitung nilai p dari hipotesis nol adalah sulit, perhitungannya mudah untuk hipotesis alternatif. Tentu saja masalahnya dapat diselesaikan dengan mempertukarkan peran dua hipotesis. Pertanyaan saya adalah bahwa penolakan atau penerimaan yang didasarkan langsung pada nilai-p dari hipotesis alternatif asli (tanpa memperkenalkan hipotesis nol) adalah apakah itu OK atau tidak. Jika tidak OK, apa solusi yang biasa untuk kesulitan seperti itu ketika menghitung nilai p dari hipotesis nol?

Saya memposting pertanyaan baru yang lebih jelas berdasarkan diskusi di utas ini.

hypothesis-testing p-value interpretation

— JDL
sumber

Yang menarik: Apakah ada kesalahan dalam tes binomial satu sisi dalam R?

Anda telah menangkap seluk-beluk yang sering kali tidak dikenali: "lebih ekstrem" perlu diukur dalam hal kemungkinan relatif dari hipotesis alternatif daripada dalam arti yang jelas (tetapi tidak secara umum benar) untuk lebih jauh berada di ujung pengambilan sampel nol distribusi. Ini eksplisit dalam perumusan Neyman-Pearson Lemma , yang digunakan untuk membenarkan banyak tes hipotesis dan untuk menentukan daerah kritis mereka (dan dari mana nilai-p mereka). Memikirkan hal ini akan membantu menjawab pertanyaan pertama Anda.

— whuber

Seingat saya, Neyman-Pearson Lemma optimal untuk tes hipotesis sederhana vs sederhana (Ho: mu = mu_0, Ha: mu = mu_a). Untuk tes komposit (Ho: mu = mu_0, Ha: mu> mu_a) ada tes alternatif.

— RobertF

Jawaban:

Jawaban pertama

Anda harus berpikir pada konsep ekstrim dalam hal probabilitas statistik uji, bukan dalam hal nilainya atau nilai variabel acak yang diuji. Saya melaporkan contoh berikut dari Christensen, R. (2005). Menguji Fisher, Neyman, Pearson, dan Bayes . The American Statistician , 59 (2), 121-126

r | 1 2 3 4 p (r | θ = 0) | 0.980 0.005 0.005 0.010 p v a l u e | 1.0 0.01 0.01 0.02

$\phantom{(r\;|\;\theta=0}r\; | \quad 1 \quad \quad 2 \quad \quad 3 \quad \quad 4\\ p(r\;|\;\theta=0) \; |\; 0.980\;0.005\; 0.005\; 0.010\\ \quad p\;\mathrm{value} \; \; | \;\; 1.0 \quad 0.01 \quad 0.01 \;\; 0.02$

Di sini adalah pengamatan, baris kedua adalah probabilitas untuk mengamati pengamatan yang diberikan di bawah hipotesis nol , yang digunakan di sini sebagai statistik uji, baris ketiga adalah nilai . Kami di sini dalam kerangka uji Fisher: ada satu hipotesis ( , dalam hal ini ) di mana kami ingin melihat apakah datanya aneh atau tidak. Pengamatan dengan probabilitas terkecil adalah 2 dan 3 dengan masing-masing 0,5%. Jika Anda mendapatkan 2, misalnya, probabilitas untuk mengamati sesuatu yang cenderung atau kurang mungkin ( dan ) adalah 1%. Pengamatan tidak berkontribusi pada $r$ $\theta=0$ $p$ $H_0$ $\theta=0$ $r=2$ $r=3$ $r=4$ $p$ nilai, meskipun lebih jauh (jika ada hubungan pesanan), karena memiliki probabilitas yang lebih tinggi untuk diamati.

Definisi ini berfungsi secara umum, karena mengakomodasi variabel kategorikal dan multidimensi, di mana relasi urutan tidak didefinisikan. Dalam kasus variabel kuantitatif tunggal, di mana Anda mengamati beberapa bias dari hasil yang paling mungkin, mungkin masuk akal untuk menghitung nilai ekor tunggal , dan hanya mempertimbangkan pengamatan yang ada di satu sisi dari distribusi statistik uji. $p$

Jawaban kedua

Saya sepenuhnya tidak setuju dengan definisi ini dari Mathworld.

Jawaban ketiga

Saya harus mengatakan bahwa saya tidak sepenuhnya yakin saya memahami pertanyaan Anda, tetapi saya akan mencoba memberikan beberapa pengamatan yang dapat membantu Anda.

Dalam konteks pengujian Fisher yang paling sederhana, di mana Anda hanya memiliki hipotesis nol, ini harus menjadi status quo . Ini karena pengujian Fisher pada dasarnya bekerja berdasarkan kontradiksi. Jadi, dalam kasus koin, kecuali Anda memiliki alasan untuk berpikir secara berbeda, Anda akan menganggapnya adil, . Kemudian Anda menghitung nilai untuk data Anda di bawah dan, jika nilai Anda di bawah ambang yang telah ditentukan, Anda menolak hipotesis (bukti dengan kontradiksi). Anda tidak pernah menghitung probabilitas hipotesis nol. $H_0: \theta=0.5$ $p$ $H_0$ $p$

Dengan tes Neyman-Pearson Anda menentukan dua hipotesis alternatif dan, berdasarkan kemungkinan relatif dan dimensi vektor parameter, Anda mendukung satu atau yang lain. Ini dapat dilihat, misalnya, dalam menguji hipotesis koin bias dan tidak bias. Tidak cocok berarti memperbaiki parameter ke (dimensi ruang parameter ini adalah nol), sedangkan bias dapat berupa nilai (dimensi sama dengan satu). Ini memecahkan masalah mencoba untuk bertentangan dengan hipotesis bias dengan kontradiksi, yang tidak mungkin, seperti yang dijelaskan oleh pengguna lain. Fisher dan NP memberikan hasil yang sama ketika sampel besar, tetapi mereka tidak persis sama. Di sini di bawah kode sederhana dalam R untuk koin bias. $\theta=0.5$ $\theta \neq 0.5$

n <- 100  # trials
p_bias <- 0.45  # the coin is biased
k <- as.integer(p_bias * n)  # successes

# value obtained by plugging in the MLE of p, i.e. k/n = p_bias
lambda <- 2 * n * log(2) + 2 * k * log(p_bias) + 2 * (n-k) * log(1. - p_bias)

p_value_F <- 2 * pbinom(k, size=n, prob=0.5)  # p-value under Fisher test
p_value_NP <- 1 - pchisq(q=lambda, df=1)  # p-value under Neyman-Pearson
binom.test(c(k, n-k))  # equivalent to Fisher

— Zag
sumber

+1 untuk menunjukkan artikel hebat yang tidak saya ketahui. (Juga untuk beberapa skeptisisme yang sangat dibutuhkan tentang kegunaan pandangan Mathworld tentang statistik).

— conjugateprior

Terima kasih banyak! Jadi nilai-p adalah \ int_ {x: f (x) <= k} f, di mana f adalah PDF dari statistik uji dan k adalah nilai yang diamati dari statistik. Terima kasih lagi.

— JDL

Mengenai jawaban ketiga, apa yang terbukti dalam jawaban Anda adalah ketidakadilan dari koin karena asumsi keadilan ditolak. Sebaliknya, untuk membuktikan keadilan koin melalui kontradiksi, saya harus menganggap tidak adil \ theta \ neq 0,5 dan menghitung nilai p data saya. Bagaimana saya bisa melakukannya? Maksud saya adalah kesulitan yang berasal dari tanda asumsi tidak adil. Apakah saya harus memperkenalkan beberapa tingkat toleransi untuk keadilan, katakanlah 0,4 <\ theta <0,6, dan hitung nilai-p dalam hal \ theta dan mengintegrasikannya di atas 0 <\ theta <0,4 dan 0,6 <\ theta <1?

— JDL

Satu pertanyaan lagi. Tautan ini menjelaskan nilai p "satu sisi". Dikatakan nilai-p satu sisi menjawab pertanyaan seperti "hipotesis nol, bahwa dua populasi benar-benar sama ... berapa kemungkinan sampel yang dipilih secara acak memiliki arti sejauh (atau lebih jauh dari) yang diamati dalam percobaan ini dengan kelompok yang ditentukan memiliki mean lebih besar ? " Apakah ini penggunaan nilai p satu sisi yang tepat? Saya pikir hipotesis nol itu sendiri harus dinyatakan sebagai ketidaksetaraan dalam kasus ini (bukan uji kesetaraan dan satu sisi).

— JDL

@ Zag, saya agak tidak setuju dengan jawaban ini: Anda tidak perlu memikirkan konsep ekstrim dalam hal probabilitas. Lebih baik mengatakan bahwa dalam contoh ini probabilitas di bawah nol digunakan sebagai statistik uji - tapi itu tidak wajib. Sebagai contoh, jika rasio kemungkinan, seperti yang disebutkan oleh whuber, digunakan sebagai statistik uji, itu tidak akan secara umum menempatkan sampel yang mungkin dalam urutan yang sama seperti probabilitas di bawah nol. Statistik lain dipilih untuk daya maksimum terhadap alternatif yang ditentukan, atau semua alternatif, atau untuk daya tinggi terhadap set yang tidak jelas.

— Scortchi

(1) Statistik adalah angka yang dapat Anda hitung dari sampel. Ini digunakan untuk mengatur semua sampel yang mungkin Anda miliki (di bawah model yang diasumsikan, di mana koin tidak mendarat di tepinya & apa pun yang Anda miliki). Jika adalah apa yang Anda hitung dari sampel yang Anda dapatkan, & adalah variabel acak yang sesuai, maka nilai-p diberikan oleh bawah hipotesis nol, . 'Lebih besar dari' vs 'lebih ekstrim' pada prinsipnya tidak penting. Untuk pengujian dua sisi pada rata-rata Normal kita dapat menggunakan tetapi lebih mudah menggunakan karena kami memiliki tabel yang sesuai. (Perhatikan penggandaannya.) $t$ $T$ $\newcommand{\pr}{\mathrm{Pr}} \pr\left(T\geq t\right)$ $H_0$ $\pr(|Z|\geq |z|)$ $2\min [\pr(Z\geq z),\pr(Z\leq z)]$

Tidak ada persyaratan untuk statistik uji untuk menempatkan sampel dalam urutan probabilitas mereka di bawah hipotesis nol. Ada situasi (seperti contoh Zag) di mana dengan cara lain akan tampak menyimpang (tanpa informasi lebih lanjut tentang apa langkah-langkah, apa jenis perbedaan dengan yang menarik yang paling, & c.), Tetapi kriteria sering lainnya digunakan. Jadi Anda bisa memiliki bimodal PDF untuk statistik uji & masih menguji menggunakan rumus di atas. $r$ $H_0$ $H_0$

(2) Ya, artinya di bawah . $H_0$

(3) Hipotesis nol seperti "Frekuensi kepala bukan 0,5" tidak ada gunanya karena Anda tidak akan pernah bisa menolaknya. Ini nol komposit termasuk "frekuensi kepala adalah 0,49999999", atau sedekat yang Anda suka. Terlepas dari apakah Anda berpikir sebelumnya tentang koin yang adil atau tidak, Anda memilih hipotesis nol yang bermanfaat yang mendukung masalah tersebut. Mungkin yang lebih bermanfaat setelah percobaan adalah menghitung interval kepercayaan untuk frekuensi kepala yang menunjukkan Anda bahwa itu jelas bukan koin yang adil, atau cukup dekat dengan adil, atau Anda perlu melakukan lebih banyak percobaan untuk mengetahuinya.

Ilustrasi untuk (1):

Misalkan Anda sedang menguji kewajaran sebuah koin dengan 10 kali lemparan. Ada hasil yang mungkin. Berikut mereka bertiga: $2^{10}$

$\mathsf{HHHHHHHHHH}\\ \mathsf{HTHTHTHTHT}\\ \mathsf{HHTHHHTTTH}$

Anda mungkin akan setuju dengan saya bahwa dua yang pertama terlihat agak mencurigakan. Namun probabilitas di bawah nol sama:

$\mathrm{Pr}(\mathsf{HHHHHHHHHH}) = \frac{1}{1024}\\ \mathrm{Pr}(\mathsf{HTHTHTHTHT}) = \frac{1}{1024}\\ \mathrm{Pr}(\mathsf{HHTHHHTTTH}) = \frac{1}{1024}$

Untuk sampai di mana saja, Anda perlu mempertimbangkan jenis alternatif apa dari nol yang ingin Anda uji. Jika Anda siap untuk mengambil independensi dari setiap lemparan di bawah nol & alternatif (& dalam situasi nyata ini seringkali berarti bekerja sangat keras untuk memastikan uji coba independen,), Anda dapat menggunakan jumlah total kepala sebagai statistik uji tanpa kehilangan informasi . (Mempartisi ruang sampel dengan cara ini adalah pekerjaan penting lain yang dilakukan statistik.)

Jadi, Anda memiliki hitungan antara 0 dan 10

t<-c(0:10)

Distribusi di bawah nol adalah

p.null<-dbinom(t,10,0.5)

Di bawah versi alternatif yang paling cocok dengan data, jika Anda melihat (katakanlah) 3 dari 10 kepala, kemungkinan kepala adalah , jadi $\frac{3}{10}$

p.alt<-dbinom(t,10,t/10)

Ambil rasio probabilitas di bawah nol ke probabilitas di bawah alternatif (disebut rasio kemungkinan):

lr<-p.alt/p.null

Dibandingkan dengan

plot(log(lr),p.null)

Jadi untuk nol ini, dua statistik memesan sampel dengan cara yang sama. Jika Anda mengulangi dengan nol 0,85 (yaitu pengujian bahwa frekuensi kepala jangka panjang adalah 85%), mereka tidak.

p.null<-dbinom(t,10,0.85)
plot(log(lr),p.null)

Tes gof lrt

Untuk melihat alasannya

plot(t,p.alt)

Beberapa nilai kurang mungkin di bawah alternatif, & statistik uji rasio kemungkinan memperhitungkan hal ini. NB statistik tes ini tidak akan ekstrem untuk $t$

$\mathsf{HTHTHTHTHT}$

Dan itu bagus - setiap sampel dapat dianggap ekstrem dari sudut pandang tertentu. Anda memilih statistik uji sesuai dengan jenis perbedaan hingga nol yang ingin Anda deteksi.

... Melanjutkan rangkaian pemikiran ini, Anda dapat menentukan statistik yang membagi ruang sampel secara berbeda untuk menguji nol yang sama terhadap alternatif yang dilemparkan satu koin ke yang berikutnya. Panggil jumlah run , sehingga $r$

$\mathsf{HHTHHHTTTH}$

memiliki : $r=6$

$\mathsf{HH}\ \mathsf{T}\ \mathsf{HHH}\ \mathsf{TTT}\ \mathsf{H}$

Urutan yang mencurigakan

$\mathsf{HTHTHTHTHT}$

memiliki . Begitu juga $r=10$

$\mathsf{THTHTHTHTH}$

sementara di ekstrem lainnya

$\mathsf{HHHHHHHHHH}\\ \mathsf{TTTTTTTTTT}$

punya . Menggunakan probabilitas di bawah nol sebagai statistik uji (sesuka Anda), Anda dapat mengatakan bahwa nilai-p sampel $r=1$

$\mathsf{HTHTHTHTHT}$

Oleh karena itu . Apa yang patut dicatat, membandingkan tes ini dengan yang sebelumnya, adalah bahwa bahkan jika Anda berpegang teguh pada urutan yang diberikan oleh probabilitas di bawah nol, cara Anda mendefinisikan statistik pengujian untuk mempartisi ruang sampel tergantung pada pertimbangan alternatif. $\frac{4}{1024}=\frac{1}{256}$

— Scortchi - Reinstate Monica
sumber

Anda mengatakan bahwa definisi Pr (T \ ge t; H_0) dapat berlaku untuk multimodal (tentu saja, termasuk bimodal) PDF dari statistik uji. Kemudian, Anda dan Zag memberikan nilai p yang berbeda untuk PDF multimodal dari statistik uji. IMHO, definisi Zag lebih beresonansi karena peran p-value adalah untuk mengukur seberapa besar kemungkinan (atau aneh) pengamatan berada di bawah hipotesis nol, seperti yang ditunjukkannya. Apa alasan Anda untuk definisi Pr (T \ ge t; H_0)?

— JDL

@ JDL, itu hanya definisi dari nilai-p. Pertanyaannya kemudian menjadi bagaimana menemukan statistik uji 'baik' (& bagaimana mendefinisikan 'baik'). Terkadang probabilitas di bawah nol (atau fungsi data apa pun yang memberikan urutan yang sama) digunakan sebagai statistik uji. Terkadang ada alasan bagus untuk memilih yang lain, yang mengisi banyak ruang dalam buku tentang statistik teoretis. Saya pikir itu adil untuk mengatakan mereka melibatkan pertimbangan alternatif eksplisit atau implisit. ...

— Scortchi

@JDL, ... Dan jika pengamatan tertentu memiliki probabilitas rendah di bawah kedua nol & alternatif tampaknya masuk akal tidak menganggapnya sebagai ekstrim.

— Scortchi

Terima kasih atas jawaban Anda, @Scortchi. Saya memposting pertanyaan baru dan telah melihat komentar Anda sekarang setelah posting. Lagi pula, saya masih tidak jelas tentang definisi tersebut. Sekali lagi terima kasih atas jawaban Anda.

— JDL

Saya menambahkan ilustrasi

— Scortchi - Reinstate Monica