Menanggapi semakin banyaknya ahli statistik dan peneliti yang mengkritik kegunaan uji hipotesis nol (NHT) untuk sains sebagai upaya kumulatif, Gugus Tugas Asosiasi Psikologis Amerika untuk Inferensi Statistik menghindari larangan langsung pada NHT, tetapi sebaliknya menyarankan bahwa para peneliti laporkan ukuran efek selain nilai p yang berasal dari NHT.
Namun, ukuran efek tidak mudah terakumulasi di seluruh studi. Pendekatan meta-analitik dapat mengakumulasi distribusi ukuran efek, tetapi ukuran efek biasanya dihitung sebagai rasio antara besarnya efek mentah dan "noise" yang tidak dijelaskan dalam data percobaan yang diberikan, yang berarti bahwa distribusi ukuran efek dipengaruhi tidak hanya oleh variabilitas dalam besarnya baku efek di seluruh studi, tetapi juga variabilitas dalam manifestasi kebisingan di seluruh studi.
Sebaliknya, ukuran alternatif kekuatan efek, rasio kemungkinan, memungkinkan interpretasi intuitif berdasarkan studi-demi-studi, dan dapat dengan mudah dikumpulkan di seluruh studi untuk meta-analisis. Dalam setiap studi, kemungkinan mewakili bobot bukti untuk model yang mengandung efek yang diberikan relatif terhadap model yang tidak mengandung efek, dan biasanya dapat dilaporkan sebagai, misalnya, "Perhitungan rasio kemungkinan untuk efek X mengungkapkan 8 kali lebih banyak bukti untuk efek daripada null masing - masing ". Selain itu, rasio kemungkinan juga memungkinkan representasi intuitif dari kekuatan temuan nol sejauh rasio kemungkinan di bawah 1 mewakili skenario di mana nol disukai dan mengambil kebalikan dari nilai ini mewakili bobot bukti untuk nol atas efek. Terutama, rasio kemungkinan diwakili secara matematis sebagai rasio varian yang tidak dapat dijelaskan dari kedua model, yang hanya berbeda dalam varian yang dijelaskan oleh efek dan karenanya bukan merupakan keberangkatan konseptual besar dari ukuran efek. Di sisi lain, perhitungan rasio kemungkinan meta-analitik, mewakili bobot bukti untuk efek di seluruh studi, hanyalah masalah mengambil produk rasio kemungkinan di seluruh studi.
Jadi, saya berpendapat bahwa untuk sains yang berusaha untuk menetapkan tingkat bukti kotor yang mendukung efek / model, rasio kemungkinan adalah cara untuk pergi.
Ada lebih banyak kasus bernuansa di mana model hanya dapat dibedakan dalam ukuran efek tertentu, dalam hal ini semacam representasi dari interval yang menurut kami data konsisten dengan nilai parameter efek yang mungkin lebih disukai. Memang, gugus tugas APA juga merekomendasikan pelaporan interval kepercayaan, yang dapat digunakan untuk tujuan ini, tetapi saya menduga bahwa ini juga merupakan pendekatan yang dipertimbangkan dengan buruk.
Interval kepercayaan seringkali disalahtafsirkan ( oleh mahasiswa dan peneliti ). Saya juga takut bahwa kemampuan mereka untuk digunakan dalam NHT (dengan penilaian dimasukkannya nol dalam CI) hanya akan berfungsi untuk lebih lanjut menunda kepunahan NHT sebagai praktik yang dapat disimpulkan.
Sebaliknya, ketika teori dibedakan hanya oleh ukuran efek, saya menyarankan bahwa pendekatan Bayesian akan lebih tepat, di mana distribusi sebelumnya dari masing-masing efek didefinisikan oleh masing-masing model secara terpisah, dan distribusi posterior yang dihasilkan dibandingkan.
Apakah pendekatan ini, menggantikan nilai-p, ukuran efek dan interval kepercayaan dengan rasio kemungkinan dan, jika perlu, perbandingan model Bayesian, tampaknya cukup? Apakah ia melewatkan fitur inferensial yang diperlukan yang disediakan oleh alternatif yang difitnah di sini?