Mari saya mulai dengan mendefinisikan persyaratan diskusi seperti yang saya lihat. Nilai p adalah probabilitas mendapatkan statistik sampel (katakanlah, mean sampel) sejauh , atau lebih jauh dari beberapa nilai referensi daripada statistik sampel Anda, jika nilai referensi adalah parameter populasi yang benar. Sebagai contoh, nilai-p menjawab pertanyaan: berapa probabilitas mendapatkan sampel berarti IQ lebih daripoin jauh dari 100, jika 100 benar-benar rata-rata populasi dari mana sampel Anda diambil. Sekarang masalahnya adalah, bagaimana seharusnya angka itu digunakan dalam membuat kesimpulan statistik? |x¯−100|
Fisher berpikir bahwa nilai-p dapat ditafsirkan sebagai ukuran bukti yang berkelanjutan terhadap hipotesis nol . Tidak ada nilai tetap tertentu di mana hasilnya menjadi 'signifikan'. Cara saya biasanya mencoba menyampaikan hal ini kepada orang-orang adalah dengan menunjukkan bahwa, untuk semua maksud dan tujuan, p = .049 dan p = .051 merupakan jumlah bukti yang identik terhadap hipotesis nol (lihat jawaban @ Henrik di sini ) .
Di sisi lain, Neyman & Pearson berpikir Anda dapat menggunakan nilai-p sebagai bagian dari proses pengambilan keputusan yang diformalkan . Pada akhir penyelidikan Anda, Anda harus menolak hipotesis nol, atau gagal menolak hipotesis nol. Selain itu, hipotesis nol bisa benar atau tidak benar. Dengan demikian, ada empat kemungkinan teoretis (walaupun dalam situasi tertentu, hanya ada dua): Anda dapat membuat keputusan yang benar (gagal untuk menolak yang benar - atau menolak hipotesis yang salah - nol), atau Anda dapat membuat jenis Saya atau tipe II kesalahan (dengan menolak nol benar, atau gagal untuk menolak hipotesis nol palsu, masing-masing). (Perhatikan bahwa nilai p tidak sama dengan tingkat kesalahan tipe I, yang saya bahas di sini.) Nilai-p memungkinkan proses memutuskan apakah akan menolak hipotesis nol untuk diformalkan atau tidak. Dalam kerangka Neyman-Pearson, prosesnya akan berjalan seperti ini: ada hipotesis nol bahwa orang akan percaya secara default dengan tidak adanya bukti yang cukup untuk sebaliknya, dan hipotesis alternatif yang Anda percaya mungkin benar sebagai gantinya. Ada beberapa tingkat kesalahan jangka panjang yang akan Anda jalani (perhatikan bahwa tidak ada alasan ini harus 5% dan 20%). Dengan adanya hal-hal ini, Anda merancang penelitian Anda untuk membedakan antara dua hipotesis sambil mempertahankan, paling banyak, tingkat kesalahan, dengan melakukan analisis kekuatan dan melakukan studi Anda sesuai. (Biasanya, ini berarti memiliki data yang cukup.) Setelah studi Anda selesai, Anda membandingkan nilai p Anda denganαdan tolak hipotesis nol jika ; jika tidak, Anda gagal menolak hipotesis nol. Either way, studi Anda selesai dan Anda telah membuat keputusan. p<α
Pendekatan Fisherian dan Neyman-Pearson tidak sama . Pendapat utama dari kerangka kerja Neyman-Pearson adalah bahwa pada akhir studi Anda, Anda harus membuat keputusan dan berjalan pergi. Diduga, seorang peneliti pernah mendekati Fisher dengan hasil 'tidak signifikan', menanyakan apa yang harus ia lakukan, dan Fisher berkata, 'dapatkan lebih banyak data'.
Secara pribadi, saya menemukan logika elegan dari pendekatan Neyman-Pearson sangat menarik. Tapi saya tidak berpikir itu selalu tepat. Menurut saya, setidaknya dua syarat harus dipenuhi sebelum kerangka kerja Neyman-Pearson harus dipertimbangkan:
- Seharusnya ada beberapa hipotesis alternatif spesifik ( besarnya efek ) yang Anda pedulikan karena suatu alasan. (Saya tidak peduli apa ukuran efeknya, apa alasan Anda, apakah itu beralasan atau koheren, dll., Hanya Anda yang memilikinya.)
- Harus ada beberapa alasan untuk curiga bahwa efeknya akan 'signifikan', jika hipotesis alternatif itu benar. (Dalam praktiknya, ini biasanya berarti bahwa Anda melakukan analisis kekuatan, dan memiliki cukup data.)
Ketika kondisi ini tidak terpenuhi, nilai-p masih dapat ditafsirkan sesuai dengan ide-ide Fisher. Selain itu, tampaknya bagi saya bahwa sebagian besar waktu kondisi ini tidak terpenuhi. Berikut adalah beberapa contoh mudah yang datang ke pikiran, di mana tes dijalankan, tetapi kondisi di atas tidak terpenuhi:
- omnibus ANOVA untuk model regresi berganda (dimungkinkan untuk mencari tahu bagaimana semua parameter kemiringan non-nol yang dihipotesiskan bersatu untuk membuat parameter non-sentralitas untuk distribusi F , tetapi itu tidak intuitif dari jarak jauh, dan saya ragu ada orang melakukannya)
- nilai uji Shapiro-Wilk dari normalitas residu Anda dalam analisis regresi (berapa besar yang Anda pedulikan dan mengapa? berapa banyak daya yang Anda miliki untuk menolak nol ketika besaran itu benar?) W
- nilai tes homogenitas varians (misalnya, tes Levene ; komentar yang sama seperti di atas)
- tes lain untuk memeriksa asumsi, dll.
- t-tes kovariat selain variabel penjelas minat utama dalam penelitian
- penelitian awal / eksplorasi (mis., studi pendahuluan)