Saya telah membaca tentang nilai- , tingkat kesalahan tipe 1, tingkat signifikansi, perhitungan daya, ukuran efek dan perdebatan Fisher vs Neyman-Pearson. Ini membuat saya agak kewalahan. Saya minta maaf untuk dinding teks, tetapi saya merasa perlu untuk memberikan gambaran tentang pemahaman saya saat ini tentang konsep-konsep ini, sebelum saya pindah ke pertanyaan saya yang sebenarnya.
Dari apa yang telah saya kumpulkan, nilai hanyalah ukuran kejutan, probabilitas untuk mendapatkan hasil setidaknya sama ekstrimnya, mengingat bahwa hipotesis nol itu benar. Fisher awalnya dimaksudkan untuk itu menjadi tindakan berkelanjutan.
Dalam kerangka kerja Neyman-Pearson, Anda memilih tingkat signifikansi di muka dan menggunakan ini sebagai titik batas (arbitrer). Level signifikansi sama dengan tingkat kesalahan tipe 1. Ini didefinisikan oleh frekuensi jangka panjang, yaitu jika Anda mengulangi percobaan 1000 kali dan hipotesis nol benar, sekitar 50 dari eksperimen tersebut akan menghasilkan efek yang signifikan , karena variabilitas pengambilan sampel. Dengan memilih level signifikansi, kita menjaga diri kita dari positif palsu ini dengan probabilitas tertentu. secara tradisional tidak muncul dalam kerangka kerja ini.
Jika kita menemukan nilai -0,01 ini tidak berarti bahwa tingkat kesalahan tipe 1 adalah 0,01, kesalahan tipe 1 dinyatakan sebagai apriori. Saya percaya ini adalah salah satu argumen utama dalam perdebatan Fisher vs NP, karena nilai- sering dilaporkan sebagai 0,05 *, 0,01 **, 0,001 ***. Ini bisa menyesatkan orang untuk mengatakan bahwa efeknya signifikan pada nilai- p tertentu , bukan pada nilai signifikansi tertentu.
Saya juga menyadari bahwa nilai- adalah fungsi dari ukuran sampel. Oleh karena itu, itu tidak dapat digunakan sebagai pengukuran absolut. Nilai p yang kecil dapat menunjukkan efek kecil yang tidak relevan dalam percobaan sampel besar. Untuk mengatasi ini, penting untuk melakukan perhitungan ukuran daya / efek ketika menentukan ukuran sampel untuk percobaan Anda. memberi tahu kita apakah ada efek, bukan seberapa besar efeknya. Lihat Sullivan 2012 .
Pertanyaan saya: Bagaimana saya bisa merekonsiliasi fakta bahwa nilai- adalah ukuran kejutan (lebih kecil = lebih meyakinkan) sementara pada saat yang sama itu tidak dapat dilihat sebagai pengukuran absolut?
Yang saya bingung, adalah yang berikut: bisakah kita lebih percaya diri dalam nilai- p kecil daripada yang besar? Dalam pengertian Nelayan, saya akan mengatakan ya, kami lebih terkejut. Dalam kerangka NP, memilih tingkat signifikansi yang lebih kecil akan menyiratkan kita menjaga diri kita lebih kuat terhadap positif palsu.
Tetapi di sisi lain, nilai bergantung pada ukuran sampel. Mereka bukan ukuran absolut. Jadi kita tidak bisa mengatakan 0,001593 lebih signifikan dari 0,0439. Namun ini yang akan tersirat dalam kerangka kerja Fisher: kita akan lebih terkejut dengan nilai ekstrem seperti itu. Bahkan ada diskusi tentang istilah yang sangat signifikan sebagai istilah yang keliru: Apakah salah menyebut hasil sebagai "sangat penting"?
Saya pernah mendengar bahwa nilai dalam beberapa bidang ilmu pengetahuan hanya dianggap penting ketika mereka lebih kecil dari 0,0001, sedangkan di bidang lain nilai sekitar 0,01 sudah dianggap sangat signifikan.
Pertanyaan-pertanyaan Terkait: