Interpretasi nilai-p dalam pengujian hipotesis


36

Saya baru-baru ini menemukan kertas "The Signifikansi Null Hypothesis Significance Testing", Jeff Gill (1999) . Penulis mengemukakan beberapa kesalahpahaman umum mengenai pengujian hipotesis dan nilai-p, yang saya punya dua pertanyaan spesifik:

  1. Nilai-p secara teknis , yang, sebagaimana ditunjukkan oleh makalah, umumnya tidak memberi tahu kita apa-apa tentang , kecuali kita tahu distribusi marjinal, yang jarang terjadi dalam pengujian hipotesis "setiap hari". Ketika kita memperoleh nilai p kecil dan "menolak hipotesis nol," apa sebenarnya pernyataan probabilistik yang kita buat, karena kita tidak bisa mengatakan apa-apa tentang ?P ( H 0 | o b s e r v a t i o n ) P ( H 0 | o b s e r v a t i o n )P(observation|H0)P(H0|observation)P(H0|observation)
  2. Pertanyaan kedua berkaitan dengan pernyataan tertentu dari halaman 6 (652) dari makalah ini:

Karena nilai-p, atau rentang nilai-p yang ditunjukkan oleh bintang-bintang, tidak disetel apriori, itu bukan probabilitas jangka panjang untuk membuat kesalahan Tipe I tetapi biasanya diperlakukan seperti itu.

Adakah yang bisa membantu menjelaskan apa yang dimaksud dengan pernyataan ini?


TY untuk referensi ke kertas
Ludovic Kuty

@ezbentley: mungkin menarik untuk mengambil llok di jawaban saya: stats.stackexchange.com/questions/166323/…

Jawaban:


33

(Secara teknis, nilai-P adalah probabilitas untuk mengamati data setidaknya sama ekstrimnya dengan yang sebenarnya diamati, diberi hipotesis nol.)

Q1. Keputusan untuk menolak hipotesis nol berdasarkan nilai-P kecil biasanya tergantung pada 'disjungsi Fisher': Entah peristiwa langka telah terjadi atau hipotesis nol salah. Akibatnya, jarang terjadi apa yang P-value memberitahu Anda daripada probabilitas bahwa nol adalah salah.

Probabilitas bahwa nol adalah salah dapat diperoleh dari data eksperimen hanya dengan teorema Bayes, yang membutuhkan spesifikasi probabilitas 'sebelum' dari hipotesis nol (mungkin apa yang disebut Gill sebagai "distribusi marjinal").

Q2. Bagian dari pertanyaan Anda ini jauh lebih sulit daripada yang terlihat. Ada banyak kebingungan tentang nilai-P dan tingkat kesalahan yang, mungkin, apa yang dimaksud Gill dengan "tetapi biasanya diperlakukan seperti itu." Kombinasi nilai-nilai Fisher dengan tingkat kesalahan Neyman-Pearsonian telah disebut sebagai mishmash yang tidak koheren, dan sayangnya sangat luas. Tidak ada jawaban singkat yang akan sepenuhnya memadai di sini, tetapi saya dapat mengarahkan Anda ke beberapa makalah yang bagus (ya, satu milik saya). Keduanya akan membantu Anda memahami kertas Gill.

Hurlbert, S., & Lombardi, C. (2009). Keruntuhan akhir kerangka teori keputusan Neyman-Pearson dan kebangkitan neoFisherian. Annales Zoologici Fennici, 46 (5), 311–349. (Tautan ke kertas)

Lew, MJ (2012). Praktik statistik yang buruk dalam farmakologi (dan disiplin ilmu biomedis dasar lainnya): Anda mungkin tidak tahu P. British Journal of Farmacology, 166 (5), 1559-1567. doi: 10.1111 / j.1476-5381.2012.01931.x (Tautan ke kertas)


Terimakasih atas klarifikasinya. Apakah secara teknis salah membuat pernyataan seperti itu "the small p-value indicates that the sample mean(or regression coefficient, etc) is significantly different from zero"? Sumber kebingungan tampaknya adalah bahwa tidak ada klaim probabilitas nyata yang dibuat untuk hipotesis nol ketika kita mengatakan nol adalah "ditolak."

2
@ezbentley, itu sangat tergantung pada apa yang Anda maksud dengan signifikan. Kata itu sebenarnya tidak terlalu berarti di sebagian besar konteks karena telah terkontaminasi oleh hibrida Fisher-Neyman-Pearson. Jika Anda memperoleh nilai-P yang sangat kecil, maka cukup adil untuk mengatakan bahwa rata-rata yang sebenarnya mungkin bukan nol, tetapi penting untuk mengatakan apa yang diamati itu berarti, dan menunjukkan variabilitasnya (SEM atau interval kepercayaan), dan jangan Jangan lupa untuk mengatakan ukuran sampelnya. Nilai-P bukan pengganti untuk spesifikasi ukuran efek yang diamati.
Michael Lew

Terima kasih atas penjelasannya. Saya perlu menggali lebih dalam paradigma Fisher dan Neyman-Pearson.

@Michael Lew: Mungkin menarik untuk melihat jawaban saya: stats.stackexchange.com/questions/166323/…

Paragraf Anda di bawah Q1 mungkin merupakan penjelasan terbaik dari masalah yang saya lihat sejauh ini. Terima kasih.
Maxim.K

22

+1 ke @MichaelLew, yang telah memberi Anda jawaban yang bagus. Mungkin saya masih bisa berkontribusi dengan memberikan cara berpikir tentang Q2. Pertimbangkan situasi berikut:

  • Hipotesis nol itu benar. (Perhatikan bahwa jika hipotesis nol tidak benar, tidak ada kesalahan tipe I yang mungkin terjadi, dan tidak jelas apa arti nilai itu.) p
  • telah ditetapkan secara konvensional pada 0,05 . α0.05
  • Nilai dihitung adalah 0,01 . p0.01

pp0.02p0.049¯pα

p


1
Bekerja di bidang (epi) di mana seringkali sangat sulit untuk percaya bahwa hipotesis H_0 = 0 sebenarnya benar, saya pikir poin ini diabaikan dan patut mendapat perhatian lebih.
boscovich

1
α

1
+1, tetapi saran bahwa arti dari nilai-P tidak jelas ketika nol adalah salah menyesatkan. Semakin kecil nilai-P semakin besar perbedaan antara nol dan yang diamati. Semakin besar ukuran sampel, semakin dekat dapat diasumsikan bahwa ukuran efek sebenarnya adalah dengan ukuran efek yang diamati. Sangat berguna untuk mencatat bahwa pengujian signifikansi analog dengan estimasi.
Michael Lew

3
@MichaelLew, saya tidak yakin bahwa nilai-p berarti hal-hal ini sendiri. Dalam hubungannya dengan w / N (& khususnya, memegang konstanta N) p yang lebih kecil akan sesuai dengan perbedaan yang lebih besar b / t nol & diamati. Bahkan kemudian, itu lebih dari sesuatu yang dapat disimpulkan dari p daripada sesuatu yang berarti p . Memang benar juga bahwa w / lebih besar N efek ukuran yang diamati harus lebih dekat ke ES sejati, tetapi kurang jelas bagi saya apa peran p yang dimainkan di sana. EG, dg null palsu, efek sebenarnya masih bisa sangat kecil, & w / N besar kita harapkan ES yang diamati dekat, tetapi p masih bisa besar.
gung - Reinstate Monica

1
...this fallacy shows up in statistics textbooks, as when Canavos and Miller (1999, p.255) stipulate: "If the null hypothesis is true, then a type I error occurs if (due to sampling error) the P-value is less than or equal to $alpha$"α

8

Saya ingin membuat komentar terkait dengan "tidak signifikannya pengujian signifikansi nol hipotesis" tetapi tidak menjawab pertanyaan OP.

pH0H0:{θ=0}θ=ϵϵϵ0ϵ0


3
+1 Ya, masalah sebenarnya dengan pengujian hipotesis konvensional adalah menjawab pertanyaan yang Anda tidak benar-benar tertarik untuk menjawab, yaitu "apakah ada bukti perbedaan yang signifikan?", Dan bukannya "apakah ada bukti perbedaan yang signifikan? ". Tentu saja apa yang benar-benar diinginkan umumnya adalah "berapa probabilitas hipotesis penelitian saya itu benar?", Tetapi ini tidak dapat dijawab dalam kerangka kerja yang sering. Kesalahan penafsiran umumnya muncul dari upaya untuk memperlakukan tes frequentist dalam istilah Bayesian.
Dikran Marsupial

1
Ini bukan ide yang baik untuk memisahkan arti nilai-P dan ukuran sampel. Nilai P yang lebih kecil menunjukkan ukuran efek yang lebih besar pada ukuran sampel tertentu, dan untuk nilai P tertentu, ukuran sampel yang lebih besar menunjukkan bahwa ukuran efek sebenarnya mungkin lebih dekat dengan ukuran efek yang diamati. Tes signifikansi harus dipikirkan dalam konteks estimasi, bukan kesalahan. Sampel yang lebih besar selalu memberikan lebih banyak informasi - cara menafsirkannya hingga ke eksperimen. Sampel besar efek samping diabaikan hanya masalah untuk pengujian hipotesis Neyman-Pearsonian.
Michael Lew
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.