Apa yang kami sebut P-hacking menerapkan uji signifikansi beberapa kali dan hanya melaporkan hasil signifikansi. Apakah ini baik atau buruk tergantung pada situasi.
Untuk menjelaskannya, mari kita pikirkan efek sejati dalam istilah Bayesian, daripada hipotesis nol dan alternatif. Selama kami percaya bahwa efek kami yang menarik datang dari distribusi yang berkelanjutan, maka kami tahu hipotesis nol itu salah. Namun, dalam kasus tes dua sisi, kami tidak tahu apakah itu positif atau negatif. Di bawah cahaya ini, kita dapat memikirkan nilai-p untuk uji dua sisi sebagai ukuran seberapa kuat bukti bahwa estimasi kami memiliki arah yang benar (yaitu, efek positif atau negatif).
p<α
Sekarang, pertimbangkan apa yang terjadi ketika Anda terus kembali untuk mendapatkan lebih banyak data. Setiap kali Anda mendapatkan lebih banyak data, probabilitas Anda untuk mendapatkan arah yang benar tergantung pada data yang cukup hanya naik. Jadi dalam skenario ini, kita harus menyadari bahwa dengan mendapatkan lebih banyak data, walaupun kita sebenarnya meningkatkan kemungkinan kesalahan tipe I, kita juga mengurangi kemungkinan salah menyimpulkan arah yang salah.
Ambillah ini sebagai kontras, penyalahgunaan P-hacking yang lebih tipikal; kami menguji 100-an dari ukuran efek yang memiliki probabilitas yang baik untuk menjadi sangat kecil dan hanya melaporkan yang signifikan. Perhatikan bahwa dalam kasus ini, jika semua efeknya kecil, kami memiliki peluang hampir 50% untuk mendapatkan arah yang salah ketika kami menyatakan signifikansi.
Tentu saja, nilai p yang dihasilkan dari data ini, double-down tetap harus datang dengan sebutir garam. Meskipun, secara umum, Anda seharusnya tidak memiliki masalah dengan orang yang mengumpulkan lebih banyak data untuk lebih yakin tentang ukuran efek, ini bisa disalahgunakan dengan cara lain. Misalnya, PI yang pandai mungkin menyadari bahwa alih-alih mengumpulkan semua 100 titik data sekaligus, mereka dapat menghemat banyak uang dan meningkatkan daya dengan terlebih dahulu mengumpulkan 50 titik data, menganalisis data, dan kemudian mengumpulkan 50 berikutnya jika tidak signifikan . Dalam skenario ini, mereka meningkatkan kemungkinan mendapatkan arah efek yang salah bersyarat pada menyatakan signifikansi, karena mereka lebih cenderung mendapatkan arah efek yang salah dengan 50 titik data daripada dengan 100 titik data.
Dan akhirnya, pertimbangkan implikasi dari tidak mendapatkan lebih banyak data ketika kita memiliki hasil yang tidak signifikan. Itu menyiratkan tidak pernah mengumpulkan lebih banyak informasi tentang topik, yang tidak akan benar-benar mendorong ilmu pengetahuan ke depan, bukan? Satu studi yang kurang kuat akan membunuh seluruh bidang.