Jawaban:
Pendapat saya adalah bahwa hal itu (dan seharusnya) tidak bergantung pada bidang studi. Misalnya, Anda mungkin bekerja pada tingkat signifikansi yang lebih rendah daripada jika, misalnya, Anda mencoba mereplikasi studi dengan hasil historis atau mapan (saya dapat memikirkan beberapa studi tentang efek Stroop , yang telah menyebabkan beberapa kontroversi dalam beberapa tahun terakhir). Itu berarti mempertimbangkan "ambang batas" yang lebih rendah dalam kerangka klasik Neyman-Pearson untuk menguji hipotesis. Namun, signifikansi statistik dan praktis (atau substantif) adalah masalah lain.
Sidenote . "Sistem bintang" tampaknya telah mendominasi penyelidikan ilmiah pada awal tahun 70-an, tetapi lihat The Earth Is Round (p <.05), oleh J. Cohen ( American Psychologist , 1994, 49 (12), 997-1003), Terlepas dari kenyataan bahwa apa yang sering ingin kita ketahui adalah data yang saya amati, berapakah probabilitas bahwa benar? Lagi pula, ada juga diskusi yang bagus tentang " Mengapa P = 0,05? ", Oleh Jerry Dallal.
Mungkin jarang ada orang yang menggunakan tingkat alfa yang ditentukan sebelumnya lebih rendah dari, katakanlah 0,01, tetapi tidak jarang orang mengklaim alpha tersirat kurang dari 0,01 dalam keyakinan yang keliru bahwa nilai P yang diamati kurang dari 0,01 sama dengan alpha Neyman-Pearson kurang dari 0,01.
Nilai P Fisher tidak sama dengan, atau dapat dipertukarkan dengan, tingkat kesalahan Neyman-Pearson. tidak berarti kecuali seseorang telah memutuskan untuk menggunakan sebagai tingkat kritis untuk signifikansi ketika percobaan dirancang. Jika Anda akan mengambil sebagai signifikan maka berarti bahwa ada kemungkinan dari klaim positif palsu.α = 0,0023 0,0023 P = 0,05 P = 0,0023 0,05
Saya tidak terlalu terbiasa dengan literatur ini tetapi saya percaya beberapa fisikawan menggunakan ambang batas yang jauh lebih rendah dalam tes statistik tetapi mereka membicarakannya sedikit berbeda. Sebagai contoh, jika ukuran adalah tiga standar deviasi dari prediksi teoritis, itu digambarkan sebagai penyimpangan "tiga sigma". Pada dasarnya, ini berarti bahwa parameter minat secara statistik berbeda dari nilai prediksi dalam uji az dengan α = 0,01. Dua sigma kira-kira setara dengan α = .05 (pada kenyataannya itu akan menjadi 1,96 σ). Jika saya tidak salah, tingkat kesalahan standar dalam fisika adalah 5 sigma, yang akan menjadi α = 5 * 10 ^ -7
Juga, dalam ilmu saraf atau epidemiologi, tampaknya semakin umum untuk melakukan koreksi beberapa perbandingan secara rutin. Level kesalahan untuk setiap tes individu karena itu bisa lebih rendah dari p <.01
Seperti dicatat oleh Gaël Laurans di atas analisis statistik yang mengalami masalah perbandingan banyak cenderung menggunakan ambang batas yang lebih konservatif. Namun, pada dasarnya mereka menggunakan 0,05, tetapi dikalikan dengan jumlah tes. Jelas bahwa prosedur ini (koreksi Bonferroni) dapat dengan cepat menyebabkan nilai-p yang sangat kecil. Itu sebabnya orang-orang di masa lalu (dalam ilmu saraf) berhenti pada p <0,001. Saat ini metode lain dari koreksi perbandingan banyak digunakan (lihat teori medan acak Markov).