Saya telah membaca paper Replikasi dan Interval Geoff Cumming 2008 : nilai p memprediksi masa depan hanya samar-samar, tetapi interval kepercayaan jauh lebih baik [~ 200 kutipan dalam Google Cendekia] - dan saya bingung dengan salah satu klaim utamanya. Ini adalah salah satu dari serangkaian makalah di mana Cumming menentang nilai- dan mendukung interval kepercayaan; pertanyaan saya, bagaimanapun, bukan tentang perdebatan ini dan hanya menyangkut satu klaim spesifik tentang nilai- .
Biarkan saya kutip dari abstrak:
Artikel ini menunjukkan bahwa, jika hasil percobaan awal dalam dua ekor , ada 80 % kesempatan satu-tailed p -nilai dari replikasi akan jatuh dalam interval ( 0,00008 , 0,44 ) , seorang 10 % kemungkinan p < 0,00008 , dan sepenuhnya peluang 10 % p > 0,44 . Hebatnya, interval — disebut interval p — adalah selebar ini seberapa besar ukuran sampelnya.
Cumming klaim bahwa " interval", dan bahkan seluruh distribusi p -values yang satu akan mendapatkan ketika mereplikasi percobaan asli (dengan ukuran sampel tetap sama), tergantung hanya pada asli p -nilai p o b t dan tidak tergantung pada ukuran efek sebenarnya, kekuatan, ukuran sampel, atau apa pun:
[...] distribusi probabilitas dapat diturunkan tanpa mengetahui atau mengasumsikan nilai untuk (atau daya). [...] Kami tidak menganggap pengetahuan sebelumnya tentang , dan kami hanya menggunakan informasi [diamati perbedaan antara kelompok] memberikan sekitar sebagai dasar perhitungan untuk diberikan dari distribusi dan interval .
Saya bingung dengan ini karena bagi saya tampaknya bahwa distribusi -values sangat tergantung pada listrik, sedangkan aslinya p o b t sendiri tidak memberikan informasi apapun tentang hal itu. Mungkin ukuran efek sebenarnya adalah δ = 0 dan kemudian distribusinya seragam; atau mungkin ukuran efek sebenarnya sangat besar dan kemudian kita harus mengharapkan sebagian besar nilai- p yang sangat kecil . Tentu saja seseorang dapat mulai dengan mengasumsikan beberapa sebelumnya lebih dari ukuran efek yang mungkin dan mengintegrasikannya, tetapi Cumming tampaknya mengklaim bahwa ini bukan apa yang dia lakukan.
Pertanyaan: Apa yang sebenarnya terjadi di sini?
Perhatikan bahwa topik ini terkait dengan pertanyaan ini: Apa fraksi percobaan ulang yang akan memiliki ukuran efek dalam interval kepercayaan 95% dari percobaan pertama? dengan jawaban yang sangat baik oleh @whuber. Cumming memiliki makalah tentang topik ini untuk: Cumming & Maillardet, 2006, Interval Keyakinan dan Replikasi: Di Mana Akan Berarti Jatuh Berikutnya? - tetapi yang jelas dan tidak bermasalah.
Saya juga mencatat bahwa klaim Cumming diulang beberapa kali dalam makalah Nature Methods 2015 Nilai P berubah-ubah menghasilkan hasil yang tidak dapat direproduksi yang mungkin telah Anda temui (mungkin sudah ada ~ 100 kutipan di Google Cendekia):
[...] akan ada variasi substansial dalam nilai percobaan berulang. Pada kenyataannya, percobaan jarang diulang; kita tidak tahu seberapa berbedanya P selanjutnya . Tetapi kemungkinan itu bisa sangat berbeda. Misalnya, terlepas dari kekuatan statistik percobaan, jika satu ulangan mengembalikan nilai P 0,05 , ada peluang 80 % bahwa percobaan berulang akan mengembalikan nilai P antara 0 dan 0,44 (dan perubahan 20 % [sic ] bahwa P akan lebih besar).
(Catat, omong-omong, bagaimana, terlepas dari apakah pernyataan Cumming benar atau tidak, makalah Nature Methods mengutipnya dengan tidak akurat: menurut Cumming, kemungkinannya hanya atas 0,44 . Dan ya, makalah itu mengatakan "20% chan g e ". Pfff.)