Apa kondisi data yang harus kita waspadai, di mana nilai-p mungkin bukan cara terbaik untuk menentukan signifikansi statistik? Apakah ada tipe masalah spesifik yang termasuk dalam kategori ini?
Apa kondisi data yang harus kita waspadai, di mana nilai-p mungkin bukan cara terbaik untuk menentukan signifikansi statistik? Apakah ada tipe masalah spesifik yang termasuk dalam kategori ini?
Jawaban:
Anda bertanya tentang Pengerukan Data , yang merupakan apa yang terjadi ketika menguji sejumlah besar hipotesis terhadap kumpulan data, atau menguji hipotesis terhadap kumpulan data yang disarankan oleh data yang sama.
Secara khusus, periksa beberapa bahaya hipotesis , dan Pengujian hipotesis yang disarankan oleh data .
Solusinya adalah dengan menggunakan beberapa jenis koreksi untuk tingkat penemuan palsu atau tingkat kesalahan Familywise , seperti metode Scheffe ini atau (sangat tua-sekolah) Bonferroni koreksi .
Dalam cara yang agak kurang ketat, mungkin membantu untuk memfilter penemuan Anda dengan interval kepercayaan untuk rasio odds (OR) untuk setiap hasil statistik. Jika interval kepercayaan 99% untuk rasio odds adalah 10-12, maka OR adalah <= 1 dengan beberapa probabilitas yang sangat kecil, terutama jika ukuran sampel juga besar. Jika Anda menemukan sesuatu seperti ini, itu mungkin efek yang kuat bahkan jika itu keluar dari tes jutaan hipotesis.
Anda seharusnya tidak mempertimbangkan nilai-p di luar konteks.
Satu hal yang agak mendasar (seperti diilustrasikan oleh xkcd ) adalah Anda perlu mempertimbangkan berapa banyak tes yang sebenarnya Anda lakukan. Jelas, Anda tidak perlu kaget melihat p <0,05 untuk satu dari 20 tes, bahkan jika hipotesis nol itu benar setiap waktu.
Contoh yang lebih halus dari ini terjadi dalam fisika energi tinggi, dan dikenal sebagai efek look-elsewhere . Semakin besar ruang parameter yang Anda cari sinyal yang mungkin mewakili partikel baru, semakin besar kemungkinan Anda melihat sinyal nyata yang benar-benar hanya karena fluktuasi acak.
Satu hal yang harus Anda perhatikan adalah ukuran sampel yang Anda gunakan. Sampel yang sangat besar, seperti para ekonom yang menggunakan data sensus, akan menyebabkan nilai-p kempes. Makalah ini "Terlalu Besar untuk Gagal: Sampel Besar dan Masalah Nilai p" membahas beberapa masalah.