Ada aliran pemikiran tertentu yang dengannya pendekatan paling luas untuk pengujian statistik adalah "hibrida" antara dua pendekatan: yaitu pendekatan Fisher dan pendekatan Neyman-Pearson; kedua pendekatan ini, menurut klaim, adalah "tidak kompatibel" dan karenanya "hibrida" yang dihasilkan adalah "mishmash yang tidak koheren". Saya akan memberikan daftar pustaka dan beberapa kutipan di bawah ini, tetapi untuk sekarang cukup mengatakan bahwa ada banyak yang ditulis tentang itu dalam artikel wikipedia tentang pengujian hipotesis statistik . Di sini, di CV, poin ini berulang kali dibuat oleh @Michael Lew (lihat di sini dan di sini ).
Pertanyaan saya adalah: mengapa pendekatan F dan NP diklaim tidak kompatibel dan mengapa hibrida diklaim tidak koheren? Perhatikan bahwa saya membaca setidaknya enam makalah anti-hibrida (lihat di bawah), tetapi masih gagal memahami masalah atau argumennya. Perhatikan juga, bahwa saya tidak menyarankan untuk berdebat jika F atau NP adalah pendekatan yang lebih baik; saya juga tidak menawarkan untuk membahas kerangka kerja frequentis vs Bayesian. Alih-alih, pertanyaannya adalah: menerima bahwa F dan NP keduanya merupakan pendekatan yang valid dan bermakna, apa yang buruk dari hibrida mereka?
Inilah cara saya memahami situasinya. Pendekatan Fisher adalah untuk menghitung nilai dan menganggapnya sebagai bukti terhadap hipotesis nol. Semakin kecil nilai , semakin meyakinkan bukti. Peneliti seharusnya menggabungkan bukti ini dengan latar belakang pengetahuannya, memutuskan apakah itu cukup meyakinkan , dan melanjutkannya. (Perhatikan bahwa pandangan Fisher berubah selama bertahun-tahun, tetapi inilah yang kelihatannya akhirnya ia konvergen.) Sebaliknya, pendekatan Neyman-Pearson adalah memilih sebelumnya dan kemudian memeriksa apakahp α p ≤ α; jika demikian, sebut itu signifikan dan tolak hipotesis nol (di sini saya menghilangkan sebagian besar cerita NP yang tidak memiliki relevansi dengan diskusi saat ini). Lihat juga jawaban yang sangat baik oleh @gung di Kapan menggunakan kerangka kerja Fisher dan Neyman-Pearson?
Pendekatan hybrid adalah untuk menghitung nilai- , melaporkannya (secara implisit mengasumsikan bahwa semakin kecil semakin baik), dan juga menyebut hasil yang signifikan jika (biasanya ) dan tidak signifikan jika tidak. Ini seharusnya tidak koheren. Bagaimana bisa tidak valid untuk melakukan dua hal yang valid secara bersamaan, mengalahkan saya.p ≤ α α = 0,05
Sebagai sangat tidak koheren, anti-hibridis memandang praktik luas pelaporan nilai sebagai , , atau (atau bahkan ), di mana selalu dipilih ketimpangan yang paling kuat. Argumennya adalah bahwa (a) kekuatan bukti tidak dapat dinilai dengan tepat karena tepat tidak dilaporkan, dan (b) orang cenderung menafsirkan angka kanan dalam ketidaksetaraan sebagai dan melihatnya sebagai kesalahan tipe I menilai, dan itu salah. Saya gagal melihat masalah besar di sini. Pertama, melaporkan tepat tentu saja merupakan praktik yang lebih baik, tetapi tidak ada yang benar-benar peduli jika adalah mis ataup < 0,05 p < 0,01 p < 0,001 p ≪ 0,0001 p α p p 0,02 0,03 ∼ 0,0001 0,05 α = 0,05 p ≠ α α , jadi membulatkannya pada skala log tidak terlalu buruk (dan pergi di bawah tidak masuk akal, lihat Bagaimana seharusnya nilai-p kecil dilaporkan? ). Kedua, jika konsensus menyebut semuanya di bawah signifikan, maka tingkat kesalahan adalah dan , seperti yang dijelaskan @gung dalam Interpretasi nilai-p dalam pengujian hipotesis . Meskipun ini berpotensi masalah yang membingungkan, itu tidak membuat saya lebih membingungkan daripada masalah lain dalam pengujian statistik (di luar hibrida). Juga, setiap pembaca dapat memiliki favoritnya sendiri dalam pikiran ketika membaca kertas hibrida, dan sebagai akibatnya tingkat kesalahannya sendiri.Jadi apa masalahnya?
Salah satu alasan saya ingin mengajukan pertanyaan ini adalah karena benar-benar menyakitkan untuk melihat berapa banyak artikel wikipedia tentang pengujian hipotesis statistik yang ditujukan untuk mencerca hibrida. Mengikuti Halpin & Stam, ia mengklaim bahwa yang pasti disalahkan oleh Lindquist (bahkan ada pemindaian besar pada buku teksnya dengan "kesalahan" yang disorot dengan warna kuning), dan tentu saja artikel wiki tentang Lindquist sendiri dimulai dengan tuduhan yang sama. Tapi kemudian, mungkin saya kehilangan sesuatu.
Referensi
Gigerenzer, 1993, Superego, ego, dan id dalam penalaran statistik - memperkenalkan istilah "hibrida" dan menyebutnya "mishmash tidak koheren"
- Lihat juga eksposisi yang lebih baru oleh Gigerenzer et al .: misalnya statistik Mindless (2004) dan The Null Ritual. Apa yang Anda Selalu Ingin Ketahui Tentang Pengujian Signifikansi tetapi Takut untuk Meminta (2004).
Cohen, 1994, The Earth Is Round ( ) - sebuah makalah yang sangat populer dengan kutipan hampir 3k, kebanyakan tentang berbagai masalah tetapi dengan mengutip Gigerenzer.
Goodman, 1999, Menuju statistik medis berbasis bukti. 1: Kekeliruan nilai P
Hubbard & Bayarri, 2003, Kebingungan tentang ukuran bukti ( ) versus kesalahan ( 's) dalam pengujian statistik klasikα - salah satu makalah yang lebih fasih berargumen menentang "hibrida"
Halpin & Stam, 2006, Inferensi Induktif atau Perilaku Induktif: Pendekatan Fisher dan Neyman-Pearson terhadap Pengujian Statistik dalam Penelitian Psikologis (1940-1960) [gratis setelah pendaftaran] - menyalahkan buku 1940 Lindquist untuk memperkenalkan pendekatan "hibrid"
@Michael Lew, 2006, Praktik statistik buruk dalam farmakologi (dan disiplin ilmu biomedis dasar lainnya): Anda mungkin tidak tahu P - ulasan dan ikhtisar yang bagus
Tanda kutip
Gigerenzer: Apa yang telah dilembagakan sebagai statistik inferensial dalam psikologi bukanlah statistik Fisher. Ini adalah mishmash yang membingungkan dari beberapa ide Fisher di satu sisi, dan beberapa ide Neyman dan ES Pearson di sisi lain. Saya menyebut perpaduan ini sebagai "logika hibrid" dari inferensi statistik.
Goodman: The [Neyman-Pearson] pendekatan uji hipotesis menawarkan para ilmuwan tawaran Faustian - cara yang tampaknya otomatis untuk membatasi jumlah kesimpulan yang salah dalam jangka panjang, tetapi hanya dengan meninggalkan kemampuan untuk mengukur bukti [a Fisher] dan menilai kebenaran dari satu percobaan.
Hubbard & Bayarri: Pengujian statistik klasik adalah hibrida anonim dari pendekatan yang bersaing dan sering bertentangan [...]. Secara khusus, ada kegagalan luas untuk menghargai ketidakcocokan nilai bukti Fisher dengan tingkat kesalahan Tipe I, , dari ortodoksi statistik Neyman-Pearson. [...] Sebagai contoh utama dari kebingungan yang timbul dari [ini] pencampuran [...], mempertimbangkan fakta secara luas dihargai bahwa mantan value adalah kompatibelα pdengan uji hipotesis Neyman-Pearson di mana ia menjadi tertanam. [...] Misalnya, Gibbons dan Pratt [...] secara keliru menyatakan: "Melaporkan nilai-P, apakah tepat atau dalam suatu interval, pada dasarnya memungkinkan setiap individu untuk memilih tingkat signifikansinya sendiri sebagai probabilitas maksimum yang dapat ditoleransi dari kesalahan Tipe I. "
Halpin & Stam: Teks Lindquist 1940 adalah sumber asli hibridisasi dari pendekatan Fisher dan Neyman-Pearson. [...] Daripada mengikuti interpretasi tertentu dari pengujian statistik, psikolog tetap ambivalen tentang, dan memang sebagian besar tidak menyadari, kesulitan konseptual yang terlibat oleh kontroversi Fisher dan Neyman-Pearson.
Lew: Apa yang kita miliki adalah pendekatan hibrid yang tidak mengontrol tingkat kesalahan atau memungkinkan penilaian kekuatan bukti.