Varian tinggi dari distribusi nilai-p (argumen di Taleb 2016)

Saya mencoba memahami klaim gambaran besar yang dibuat di Taleb, 2016, The Meta-Distribution of Standard P-Values .

Di dalamnya, Taleb membuat argumen berikut untuk tidak dapat diandalkannya nilai-p (seperti yang saya mengerti):

Prosedur estimasi yang beroperasi pada titik data yang berasal dari beberapa distribusi menghasilkan nilai ap. Jika kita menarik n lebih banyak poin dari distribusi ini dan mengeluarkan nilai p lain, kita dapat meratakan nilai-p ini dalam batas yang disebut "nilai p benar". $n$ $X$

"True p-value" ini terbukti memiliki varian yang sangat tinggi, sehingga prosedur distribusi + dengan "true p value" akan 60% dari waktu melaporkan nilai p <0,05. $.12$

Pertanyaan : bagaimana ini dapat direkonsiliasi dengan argumen tradisional yang mendukung nilai- . Seperti yang saya pahami, nilai-p seharusnya memberi tahu Anda berapa persen dari waktu prosedur Anda akan memberi Anda interval yang benar (atau apa pun). Namun, makalah ini tampaknya berpendapat bahwa interpretasi ini menyesatkan karena nilai-p tidak akan sama jika Anda menjalankan prosedur lagi. $p$

Apakah saya melewatkan intinya?

hypothesis-testing statistical-significance p-value

— Lepidopterist
sumber

Bisakah Anda menjelaskan apa "argumen tradisional" ini? Saya tidak yakin saya jelas argumen apa yang Anda pertimbangkan.

— Glen_b -Reinstate Monica

Pertanyaannya menarik dan terkait dengan literatur yang CV bahkan memiliki tag, menggabungkan-p-nilai yang mungkin ingin Anda tambahkan jika menurut Anda itu sesuai.

— mdewey

Saya percaya pertanyaan tentang reproduktifitas nilai-p mungkin sangat erat kaitannya dengan yang ini. Mungkin analisis di sana mirip dengan (atau bahkan sama) dengan yang disebutkan di sini.

— whuber

Jawaban:

Nilai-p adalah variabel acak.

Di bawah (setidaknya untuk statistik yang didistribusikan secara kontinu), nilai-p harus memiliki distribusi yang seragam $H_0$

Untuk tes yang konsisten, di bawah nilai p harus pergi ke 0 dalam batas ketika ukuran sampel meningkat hingga tak terbatas. Demikian pula, ketika ukuran efek meningkatkan distribusi nilai-p juga harus cenderung bergeser ke 0, tetapi akan selalu "menyebar". $H_1$

Gagasan p-value "benar" terdengar seperti omong kosong bagi saya. Apa artinya, di bawah atau ? Misalnya, Anda mungkin mengatakan bahwa yang Anda maksudkan adalah "rata -rata distribusi nilai-p pada beberapa ukuran efek dan ukuran sampel ", tetapi kemudian dalam hal apa Anda memiliki konvergensi di mana spread harus menyusut? Ini tidak seperti Anda dapat meningkatkan ukuran sampel sambil memegangnya dengan konstan. $H_0$ $H_1$

Berikut adalah contoh dengan satu uji-t sampel dan ukuran efek kecil di bawah . Nilai-p hampir seragam ketika ukuran sampel kecil, dan distribusi perlahan-lahan terkonsentrasi ke 0 ketika ukuran sampel meningkat. $H_1$

Ini persis bagaimana nilai-p seharusnya berperilaku - untuk null palsu, ketika ukuran sampel meningkat, nilai-p harus menjadi lebih terkonsentrasi pada nilai-nilai rendah, tetapi tidak ada yang menunjukkan bahwa distribusi nilai-nilai yang diperlukan ketika Anda membuat kesalahan tipe II - ketika nilai-p di atas apa pun tingkat signifikansi Anda - entah bagaimana harus berakhir "dekat" ke tingkat signifikansi itu.

$\alpha=0.05$

Sering membantu untuk mempertimbangkan apa yang terjadi baik dengan distribusi statistik uji apa pun yang Anda gunakan di bawah alternatif dan apa yang menerapkan cdf di bawah nol sebagai transformasi yang akan dilakukan untuk distribusi (yang akan memberikan distribusi nilai p di bawah alternatif spesifik). Ketika Anda berpikir dalam istilah-istilah ini, seringkali tidak sulit untuk melihat mengapa perilakunya seperti apa adanya.

Masalah yang saya lihat bukan pada masalah inheren dengan nilai-p atau pengujian hipotesis sama sekali, ini lebih merupakan masalah apakah tes hipotesis merupakan alat yang baik untuk masalah khusus Anda atau apakah ada hal lain yang lebih sesuai. dalam setiap kasus tertentu - itu bukan situasi untuk polemik luas tetapi pertimbangan cermat dari jenis pertanyaan yang diuji hipotesis dan kebutuhan khusus dari keadaan Anda. Sayangnya pertimbangan yang cermat dari masalah ini jarang dibuat - terlalu sering orang melihat pertanyaan dari bentuk "tes apa yang saya gunakan untuk data ini?" tanpa pertimbangan apa pertanyaan yang menarik, apalagi apakah beberapa tes hipotesis adalah cara yang baik untuk mengatasinya.

Salah satu kesulitannya adalah bahwa tes hipotesis keduanya banyak disalahpahami dan banyak disalahgunakan; orang sangat sering berpikir bahwa mereka memberi tahu kami hal-hal yang tidak mereka ketahui. Nilai p mungkin merupakan satu-satunya hal yang paling disalahpahami tentang tes hipotesis.

— Glen_b -Reinstate Monica
sumber

p

$p$

n

$n$

m

$m$

n

$n$

n

$n$

n

$n$

H_{1}

$H_1$

H_{1}

$H_1$

n

$n$

+1. Satu analisis terkait - dan menyenangkan - yang muncul di benak saya adalah apa yang oleh Geoff Cumming disebut "Tarian nilai-p": lihat youtube.com/watch?v=5OL1RqHrZQ8 ("tarian" terjadi sekitar 9 menit setelah tanda) . Keseluruhan presentasi kecil ini pada dasarnya menekankan bagaimana variabel nilai-p bahkan untuk daya yang relatif tinggi. Saya tidak terlalu setuju dengan poin utama Cumming bahwa interval kepercayaan jauh lebih baik daripada nilai-p (dan saya benci dia menyebutnya "statistik baru"), tetapi saya berpikir bahwa variabilitas jumlah ini mengejutkan bagi banyak orang dan "menari" adalah cara yang lucu untuk menunjukkannya.

— Amoeba berkata Reinstate Monica

Jawaban Glen_b tepat (+1; pertimbangkan tambahan tambang). Makalah yang Anda rujuk oleh Taleb secara topikal sangat mirip dengan serangkaian makalah dalam literatur psikologi dan statistik tentang jenis informasi apa yang dapat Anda peroleh dari menganalisis distribusi nilai-p (apa yang penulis sebut p-kurva ; lihat situs mereka dengan banyak sumber daya, termasuk aplikasi analisis p-curve di sini ).

Para penulis mengusulkan dua penggunaan utama dari p-curve:

Anda dapat menilai nilai bukti dari suatu literatur dengan menganalisis kurva-p literatur . Ini adalah penggunaan kurva p yang diiklankan pertama kali. Pada dasarnya, seperti yang dijelaskan Glen_b, ketika Anda berhadapan dengan ukuran efek bukan nol, Anda akan melihat kurva-p yang condong positif di bawah ambang konvensional p <.05, karena nilai-p yang lebih kecil seharusnya lebih mungkin daripada p- nilai lebih dekat ke hal= .05 ketika suatu efek (atau kelompok efek) adalah "nyata". Oleh karena itu Anda dapat menguji kurva p untuk kemiringan positif yang signifikan sebagai pengujian nilai pembuktian. Sebaliknya, para pengembang mengusulkan agar Anda dapat melakukan tes kemiringan negatif (yaitu, nilai-p yang lebih signifikan dibandingkan dengan yang lebih kecil) sebagai cara untuk menguji apakah serangkaian efek tertentu telah mengalami berbagai praktik analitik yang dipertanyakan.
Anda dapat menghitung estimasi meta-analitik bebas bias publikasi dari ukuran efek menggunakan p-kurva dengan nilai-p yang dipublikasikan . Yang ini sedikit lebih sulit untuk dijelaskan secara ringkas, dan sebagai gantinya, saya sarankan Anda memeriksa makalah yang berfokus pada perkiraan ukuran efek mereka (Simonsohn, Nelson, & Simmons, 2014a, 2014b) dan baca sendiri metodenya. Tetapi pada dasarnya, penulis menyarankan bahwa kurva-p dapat digunakan untuk mengitari masalah efek file-drawer, ketika melakukan meta-analisis.

Jadi, untuk pertanyaan Anda yang lebih luas tentang:

bagaimana ini bisa didamaikan dengan argumen tradisional yang mendukung nilai-p?

Saya akan mengatakan bahwa metode seperti Taleb (dan lainnya) telah menemukan cara untuk menggunakan kembali nilai-p, sehingga kita bisa mendapatkan informasi yang berguna tentang seluruh literatur dengan menganalisis kelompok nilai-p, sedangkan satu nilai-p pada dirinya sendiri, mungkin jauh lebih terbatas dalam kegunaannya.

Referensi

Simonsohn, U., Nelson, LD, & Simmons, JP (2014a). P-curve: Kunci Ke Laci File. Jurnal Psikologi Eksperimental: Umum , 143 , 534-547.

Simonsohn, U., Nelson, LD, & Simmons, JP (2014b). P-Curve dan Ukuran Efek: Mengoreksi untuk Bias Publikasi Menggunakan Hanya Hasil Signifikan. Perspektif tentang Ilmu Psikologi , 9 , 666-681.

Simonsohn, U., Simmons, JP, & Nelson, LD (2015). Kurva P lebih baik: Membuat analisis kurva P lebih kuat untuk kesalahan, penipuan, dan peretasan P yang ambisius, sebuah Balasan untuk Ulrich dan Miller (2015). Jurnal Psikologi Eksperimental: Umum , 144 , 1146-1152.

— jsakaluk
sumber