Artikel ini " The Odds, Continuous Updated" dari NY Times kebetulan menarik perhatian saya. Singkatnya, ini menyatakan itu
[Statistik Bayesian] terbukti sangat berguna dalam mendekati masalah kompleks, termasuk pencarian seperti yang digunakan Coast Guard pada 2013 untuk menemukan nelayan yang hilang, John Aldridge (meskipun tidak, sejauh ini, dalam perburuan untuk Malaysia Airlines Penerbangan 370) .. ......, statistik Bayesian beriak melalui segala hal mulai dari fisika hingga penelitian kanker, ekologi hingga psikologi ...
Dalam artikel tersebut, ada juga beberapa kritik tentang nilai-p frequentist, misalnya:
Hasil biasanya dianggap "signifikan secara statistik" jika nilai-p kurang dari 5 persen. Tetapi ada bahaya dalam tradisi ini, kata Andrew Gelman, seorang profesor statistik di Columbia. Bahkan jika para ilmuwan selalu melakukan perhitungan dengan benar - dan mereka tidak melakukannya, dia berpendapat - menerima semuanya dengan nilai p 5 persen berarti bahwa satu dari 20 hasil "signifikan secara statistik" tidak lain hanyalah suara acak.
Selain di atas, mungkin makalah yang paling terkenal yang mengkritik nilai-p adalah ini - "Metode ilmiah: Kesalahan statistik" oleh Regina Nuzzo dari Nature , di mana banyak masalah ilmiah yang diangkat oleh pendekatan nilai-p telah dibahas, seperti masalah kemampuan reproduksi, peretasan nilai-p, dll.
Nilai P, 'standar emas' dari validitas statistik, tidak dapat diandalkan seperti yang diasumsikan oleh banyak ilmuwan. ...... Mungkin kekeliruan terburuk adalah jenis penipuan diri sendiri yang oleh psikolog Uri Simonsohn dari University of Pennsylvania dan rekan-rekannya telah mempopulerkan istilah P-hacking; itu juga dikenal sebagai pengerukan data, pengintaian, penangkapan ikan, pengejaran signifikan dan pencelupan ganda. “Peretasan,” kata Simonsohn, “sedang mencoba banyak hal sampai Anda mendapatkan hasil yang diinginkan” - bahkan tanpa disadari. ...... "Temuan itu tampaknya telah diperoleh melalui p-hacking, penulis menjatuhkan salah satu syarat sehingga nilai-p keseluruhan akan kurang dari 0,05", dan "Dia adalah p-hacker, dia selalu memonitor data saat sedang dikumpulkan. ”
Hal lain adalah plot yang menarik sebagai berikut dari sini , dengan komentar tentang plot:
Tidak peduli seberapa kecil efek Anda, Anda selalu dapat melakukan kerja keras mengumpulkan data untuk melewati ambang p <.05. Selama efek yang Anda pelajari tidak ada, nilai-p hanya mengukur seberapa banyak upaya yang Anda lakukan untuk mengumpulkan data.
Dengan semua hal di atas, pertanyaan saya adalah:
Apa argumen Andrew Gelman, dalam kutipan blok kedua, tepatnya? Mengapa dia menafsirkan nilai 5-persen sebagai "satu dari 20 hasil yang signifikan secara statistik mencatat tetapi suara acak"? Saya tidak yakin karena bagi saya p-value digunakan untuk membuat kesimpulan pada satu studi tunggal. Maksudnya tampaknya terkait dengan beberapa pengujian.
Pembaruan: Periksa blog Andrew Gelman tentang ini: Tidak, saya tidak mengatakan itu! (Kredit ke @Scortchi, @whuber).
Mengingat kritik tentang p-nilai, dan juga mengingat ada banyak kriteria informasi, seperti AIC, BIC, Mallow untuk mengevaluasi signifikansi model (maka variabel), seharusnya kita tidak menggunakan p-value untuk seleksi variabel di semua kecuali menggunakan kriteria pemilihan model itu?
- Adakah pedoman praktis yang baik untuk menggunakan nilai-p untuk analisis statistik yang dapat menghasilkan hasil penelitian yang lebih andal?
Apakah kerangka pemodelan Bayesian cara yang lebih baik untuk mengejar, karena beberapa ahli statistik menganjurkan? Secara khusus, akankah pendekatan Bayesian lebih mungkin menyelesaikan penemuan yang salah atau memanipulasi masalah data? Saya tidak yakin di sini juga karena prior sangat subjektif dalam pendekatan Bayesian. Adakah penelitian praktis dan terkenal yang menunjukkan pendekatan Bayesian lebih baik daripada nilai-p frequentist, atau setidaknya dalam beberapa kasus tertentu?
Pembaruan: Saya akan sangat tertarik pada apakah ada kasus bahwa pendekatan Bayesian lebih dapat diandalkan daripada pendekatan p-value frequentist. Dengan "dapat diandalkan", maksud saya pendekatan Bayesian cenderung untuk memanipulasi data untuk hasil yang diinginkan. Ada saran?
Pembaruan 6/9/2015
Hanya memperhatikan berita, dan berpikir akan lebih baik untuk meletakkannya di sini untuk diskusi.
Jurnal psikologi melarang nilai-nilai P.
Sebuah uji statistik kontroversial akhirnya menemui akhirnya, setidaknya dalam satu jurnal. Awal bulan ini, para editor Psikologi Sosial Dasar dan Terapan (BASP) mengumumkan bahwa jurnal tidak akan lagi menerbitkan makalah yang mengandung nilai P karena statistik terlalu sering digunakan untuk mendukung penelitian berkualitas rendah.
Seiring dengan makalah baru-baru ini, "Nilai P berubah-ubah menghasilkan hasil yang tidak dapat direproduksi" dari Nature , tentang nilai P.
Perbarui 5/8/2016
Kembali pada bulan Maret, American Statistics Association (ASA) merilis pernyataan tentang signifikansi statistik dan nilai-p, ".... Pernyataan ASA dimaksudkan untuk mengarahkan penelitian ke era 'pasca p <0,05.'"
Pernyataan ini berisi 6 prinsip yang membahas penyalahgunaan nilai-p:
- Nilai-P dapat menunjukkan seberapa tidak kompatibelnya data dengan model statistik yang ditentukan.
- Nilai-P tidak mengukur probabilitas bahwa hipotesis yang diteliti itu benar, atau probabilitas bahwa data dihasilkan oleh kebetulan acak saja.
- Kesimpulan ilmiah dan keputusan bisnis atau kebijakan tidak boleh hanya didasarkan pada apakah nilai-p melewati ambang tertentu.
- Inferensi yang tepat membutuhkan pelaporan dan transparansi penuh.
- Nilai p, atau signifikansi statistik, tidak mengukur ukuran efek atau pentingnya hasil.
- Dengan sendirinya, nilai-p tidak memberikan ukuran bukti yang baik mengenai model atau hipotesis.
Detail: "Pernyataan ASA tentang nilai-p: konteks, proses, dan tujuan" .