ASA membahas batasan nilai- - apa saja alternatifnya?

100

Kami telah memiliki beberapa utas yang ditandai sebagai nilai-p yang mengungkapkan banyak kesalahpahaman tentangnya. Sepuluh bulan yang lalu kami memiliki thread tentang jurnal psikologis yang "dilarang" -values $p$ , sekarang Amerika statistik Association (2016) mengatakan bahwa dengan analisis kita "tidak harus diakhiri dengan perhitungan dari -nilai". $p$

American Statistics Association (ASA) percaya bahwa komunitas ilmiah dapat mengambil manfaat dari pernyataan formal yang mengklarifikasi beberapa prinsip yang disepakati secara luas yang mendasari penggunaan yang tepat dan interpretasi nilai- . $p$

Komite mencantumkan pendekatan lain sebagai alternatif atau suplemen yang memungkinkan untuk nilai- : $p$

Mengingat penyalahgunaan yang lazim dan kesalahpahaman tentang nilai- , beberapa ahli statistik lebih memilih untuk menambah atau bahkan mengganti nilai- dengan pendekatan lain. Ini termasuk metode yang menekankan pada estimasi pengujian, seperti kepercayaan, kredibilitas, atau interval prediksi; Metode Bayesian; ukuran alternatif bukti, seperti rasio kemungkinan atau Faktor Bayes; dan pendekatan lainnya seperti pemodelan teoritik keputusan dan tingkat penemuan yang salah. Semua tindakan dan pendekatan ini bergantung pada asumsi lebih lanjut, tetapi mereka mungkin lebih langsung membahas ukuran efek (dan ketidakpastian yang terkait) atau apakah hipotesis itu benar. $p$ $p$

Jadi mari kita bayangkan realitas post- -values. ASA mendaftar beberapa metode yang dapat digunakan sebagai ganti nilai- , tetapi mengapa mereka lebih baik? Manakah dari mereka yang bisa menjadi pengganti kehidupan nyata bagi seorang peneliti yang menggunakan nilai untuk seluruh hidupnya? Saya membayangkan bahwa pertanyaan-pertanyaan semacam ini akan muncul dalam realitas post- -values, jadi mungkin mari kita coba selangkah di depan mereka. Apa alternatif yang masuk akal yang dapat diterapkan di luar kotak? Mengapa pendekatan ini harus meyakinkan peneliti utama, editor, atau pembaca Anda? $p$ $p$ $p$ $p$

Seperti yang disarankan oleh entri blog tindak lanjut ini , nilai- tidak terkalahkan dalam kesederhanaannya: $p$

Nilai-p hanya membutuhkan model statistik untuk perilaku suatu statistik berdasarkan hipotesis nol untuk dipegang. Bahkan jika model hipotesis alternatif digunakan untuk memilih statistik "baik" (yang akan digunakan untuk membangun nilai-p), model alternatif ini tidak harus benar agar nilai-p menjadi valid dan berguna (yaitu: kontrol tipe I kesalahan pada tingkat yang diinginkan sambil menawarkan kekuatan untuk mendeteksi efek nyata). Sebaliknya, metode statistik lainnya (luar biasa dan berguna) seperti rasio kemungkinan, estimasi ukuran efek, interval kepercayaan, atau metode Bayesian semua membutuhkan model yang diasumsikan untuk menampung berbagai situasi yang lebih luas, tidak hanya di bawah nol yang diuji.

Apakah mereka, atau mungkin itu tidak benar dan kita dapat dengan mudah menggantinya?

Saya tahu, ini luas, tetapi pertanyaan utamanya sederhana: apa yang terbaik (dan mengapa), alternatif kehidupan nyata dari nilai- yang dapat digunakan sebagai pengganti? $p$

ASA (2016). Pernyataan ASA tentang Signifikansi Statistik dan Nilai- . $P$ Ahli Statistik Amerika. (dalam pers)

— Tim
sumber

3

Terikat menjadi pertanyaan klasik +1! Pendekatan Bayesian, karena memungkinkan kita untuk (setidaknya secara subyektif) menjawab pertanyaan yang sering kita minati, yaitu .: "Mengingat bukti (data), berapakah probabilitas bahwa hipotesis itu benar?"

— Christoph Hanck

9

"Post- -value reality" memiliki cincin dystopian yang bagus untuk itu.

p

$p$

— Marc Claesen

4

Makalah diskusi diposting bersama dengan pernyataan ASA layak dibaca karena beberapa dari mereka memiliki saran tentang apa yang bisa menggantikan nilai-p. Konten Tambahan

— Seth

2

Saya telah memposting pertanyaan terkait berdasarkan bagian lain dari laporan ASA, salah satu peringatannya tentang potensi penyalahgunaan nilai-p: Berapa banyak yang kita ketahui tentang peretasan?

— Silverfish

1

Sebagai komentar untuk pertanyaan saya sendiri, ada utas bagus yang membahas topik serupa: stats.stackexchange.com/questions/17897/…

— Tim

100

Saya akan memfokuskan jawaban ini pada pertanyaan spesifik tentang apa saja alternatif untuk nilai- . $p$

Ada 21 makalah diskusi yang diterbitkan bersama dengan pernyataan ASA (sebagai Bahan Tambahan): oleh Naomi Altman, Douglas Altman, Daniel J. Benjamin, Yoav Benjamini, Jim Berger, Don Berry, John Carlin, George Cobb, Andrew Gelman, Steve Goodman, Sander Greenland, John Ioannidis, Joseph Horowitz, Valen Johnson, Michael Lavine, Michael Lew, Rod Little, Deborah Mayo, Michele Millar, Charles Poole, Ken Rothman, Stephen Senn, Dalene Stangl, Philip Stark, dan Steve Ziliak (beberapa dari mereka menulis bersama ; Saya daftar semua untuk pencarian di masa depan). Orang-orang ini mungkin membahas semua pendapat yang ada tentang nilai- dan inferensi statistik. $p$

Saya telah memeriksa semua 21 makalah.

Sayangnya, sebagian besar dari mereka tidak membahas alternatif nyata apa pun, meskipun mayoritas tentang keterbatasan, kesalahpahaman, dan berbagai masalah lainnya dengan nilai- (untuk pertahanan nilai- , lihat Benjamini, Mayo, dan Senn). Ini sudah menunjukkan bahwa alternatif, jika ada, tidak mudah ditemukan dan / atau dipertahankan. $p$ $p$

Jadi mari kita lihat daftar "pendekatan lain" yang diberikan dalam pernyataan ASA itu sendiri (seperti dikutip dalam pertanyaan Anda):

[Pendekatan lain] termasuk metode yang menekankan pada estimasi pengujian, seperti kepercayaan, kredibilitas, atau interval prediksi; Metode Bayesian; ukuran alternatif bukti, seperti rasio kemungkinan atau Bayes Factors; dan pendekatan lain seperti pemodelan teoritik keputusan dan tingkat penemuan palsu.

Interval kepercayaan diri

Interval kepercayaan adalah alat yang sering berjalan seiring dengan nilai- ; melaporkan interval kepercayaan (atau yang setara, misalnya, mean standard error dari mean) bersama dengan -value hampir selalu merupakan ide yang baik. $p$ $\pm$ $p$

Beberapa orang (tidak termasuk dalam ASA yang berselisih) menyarankan bahwa interval kepercayaan harus menggantikan nilai- . Salah satu pendukung paling vokal dari pendekatan ini adalah Geoff Cumming yang menyebutnya statistik baru (nama yang menurut saya mengerikan). Lihat misalnya posting blog ini oleh Ulrich Schimmack untuk kritik terperinci: Tinjauan Kritis Cumming's (2014) Statistik Baru: Reselling Statistik Lama sebagai Statistik Baru . Lihat juga Kami tidak mampu mempelajari ukuran efek di posting blog lab oleh Uri Simonsohn untuk poin terkait. $p$

Lihat juga utas ini (dan jawaban saya di dalamnya) tentang saran serupa oleh Norm Matloff di mana saya berpendapat bahwa ketika melaporkan CI seseorang masih ingin memiliki nilai dilaporkan juga: Apa yang merupakan contoh yang baik dan meyakinkan di mana p-nilai berguna? $p$

Namun, beberapa orang lain (tidak termasuk di antara yang berselisih ASA) berpendapat bahwa interval kepercayaan, sebagai alat yang sering dilakukan, sesat seperti nilai- dan juga harus dibuang. Lihat, misalnya, Morey et al. 2015, Kekeliruan Menempatkan Keyakinan dalam Interval Kepercayaan yang ditautkan oleh @Tim di komentar ini. Ini adalah perdebatan yang sangat lama. $p$
Metode Bayesian

(Saya tidak suka bagaimana pernyataan ASA merumuskan daftar. Interval kredibel dan faktor Bayes didaftar secara terpisah dari "metode Bayesian", tetapi mereka jelas alat Bayesian. Jadi saya menghitungnya bersama-sama di sini.)
- Ada literatur besar dan sangat keras tentang perdebatan Bayesian vs. frequentist. Lihat, misalnya, utas baru-baru ini untuk beberapa pemikiran: Kapan (jika pernah) pendekatan yang sering secara substantif lebih baik daripada orang Bayes? Analisis Bayesian masuk akal jika seseorang memiliki prioror informatif yang baik, dan semua orang akan dengan senang hati menghitung dan melaporkan atau sebagai gantinya dari $p(\theta|\text{data})$ $p(H_0:\theta=0|\text{data})$ $p(\text{data at least as extreme}|H_0)$ —Tapi sayangnya, orang biasanya tidak memiliki prior yang baik. Eksperimen mencatat 20 tikus melakukan sesuatu dalam satu kondisi dan 20 tikus melakukan hal yang sama dalam kondisi lain; prediksi adalah bahwa kinerja tikus yang terdahulu akan melebihi kinerja tikus yang terakhir, tetapi tidak ada yang mau atau memang bisa menyatakan dengan jelas sebelum perbedaan kinerja. (Tapi lihat jawaban @ FrankHarrell di mana ia mengadvokasi menggunakan "priorors skeptis".)
- Bayesian Die-hard menyarankan untuk menggunakan metode Bayes bahkan jika seseorang tidak memiliki prior informatif. Salah satu contoh baru-baru ini adalah Krushke, 2012, estimasi Bayes menggantikan uji- $t$ , dengan rendah hati disingkat sebagai BEST. Idenya adalah untuk menggunakan model Bayesian dengan prior uninformative lemah untuk menghitung posterior untuk efek yang menarik (seperti, misalnya, perbedaan kelompok). Perbedaan praktis dengan penalaran yang sering nampaknya biasanya kecil, dan sejauh yang saya bisa lihat pendekatan ini tetap tidak populer. Lihat Apa yang dimaksud dengan "pemberitahuan sebelumnya"? Bisakah kita punya satu yang benar-benar tanpa informasi? untuk diskusi tentang apa yang "tidak informatif" (jawaban: tidak ada hal seperti itu, maka kontroversi).
- Pendekatan alternatif, kembali ke Harold Jeffreys, didasarkan pada pengujian Bayesian (yang bertentangan dengan estimasi Bayesian ) dan menggunakan faktor Bayes. Salah satu pendukung yang lebih fasih dan produktif adalah Eric-Jan Wagenmakers, yang telah banyak menerbitkan topik ini dalam beberapa tahun terakhir. Dua fitur pendekatan ini patut ditekankan di sini. Pertama, lihat Wetzels et al., 2012, Tes Hipotesis Bayesian Default untuk Desain ANOVA untuk ilustrasi seberapa kuat hasil tes Bayesian dapat bergantung pada pilihan spesifik dari hipotesis alternatif $H_1$ dan distribusi parameter ("prior") yang ada. Kedua, setelah "masuk akal" sebelumnya dipilih (Wagenmakers mengiklankan apa yang disebut priors "default" Jeffreys), sehingga faktor Bayes sering berubah menjadi cukup konsisten dengan nilai- standar , lihat misalnya angka ini dari pracetak ini oleh Marsman & Pembuat Wagen : $p$
  
  Jadi sementara Wagenmakers et al. tetap bersikeras bahwa nilai- sangat cacat dan faktor Bayes adalah cara untuk pergi, orang tidak bisa tidak bertanya-tanya ... (Agar adil, titik Wetzels et al. 2011 adalah bahwa untuk nilai- dekat dengan faktor Bayes saja menunjukkan bukti yang sangat lemah terhadap nol, tetapi perhatikan bahwa ini dapat dengan mudah ditangani dalam paradigma frequentist hanya dengan menggunakan lebih ketat , sesuatu yang banyak orang menganjurkan pula.) $p$ $p$ $0.05$ $\alpha$
  
  Salah satu makalah yang lebih populer oleh Wagenmakers et al. dalam membela faktor Bayes adalah 2011, Mengapa psikolog harus mengubah cara mereka menganalisis data mereka: Kasus psi di mana ia berpendapat bahwa makalah Bem yang terkenal tentang memprediksi masa depan tidak akan mencapai kesimpulan salah mereka jika saja mereka menggunakan faktor Bayes sebagai gantinya. nilai- . Lihat posting blog yang dipikirkan oleh Ulrich Schimmack ini untuk argumen balasan yang terperinci (dan IMHO meyakinkan): Mengapa Para Psikolog Tidak Harus Mengubah Cara Mereka Menganalisa Data Mereka: Iblis ada di dalam Default Default . $p$
  
  Lihat juga The Default Bayesian Test adalah Prasangka Terhadap Efek Kecil dari posting blog oleh Uri Simonsohn.
- Untuk kelengkapan, saya menyebutkan bahwa Wagenmakers 2007, Sebuah solusi praktis untuk masalah meresap -values $p$ disarankan untuk menggunakan BIC sebagai sebuah pendekatan untuk faktor Bayes untuk menggantikan -values. BIC tidak tergantung pada sebelumnya dan karenanya, meskipun namanya, tidak benar-benar Bayesian; Saya tidak yakin apa yang harus dipikirkan tentang proposal ini. Tampaknya baru-baru ini pembuat Wagen lebih menyukai tes Bayesian dengan prior Jeffreys yang tidak informatif, lihat di atas. $p$
Untuk diskusi lebih lanjut tentang estimasi Bayes vs pengujian Bayesian, lihat estimasi parameter Bayesian atau pengujian hipotesis Bayesian? dan tautan di dalamnya.
Faktor Bayes minimum

Di antara para pihak yang berselisih ASA, ini secara eksplisit disarankan oleh Benjamin & Berger dan oleh Valen Johnson (satu-satunya dua makalah yang semuanya menyarankan alternatif konkret). Saran spesifik mereka sedikit berbeda tetapi mereka memiliki semangat yang sama.
- Ide-ide dari Berger kembali ke Berger & Sellke 1987 dan ada sejumlah makalah oleh Berger, Sellke, dan kolaborator sampai tahun lalu menguraikan pekerjaan ini. Idenya adalah bahwa di bawah lonjakan dan lempengan sebelumnya di mana titik nol hipotesis mendapat probabilitas dan semua nilai lain dari mendapat probabilitas menyebar secara simetris sekitar ("alternatif lokal"), maka posterior minimal atas semua alternatif lokal, yaitu faktor Bayes minimal , jauh lebih tinggi daripada nilai . Ini adalah dasar dari klaim (yang banyak diperebutkan) itu $\mu=0$ $0.5$ $\mu$ $0.5$ $0$ $p(H_0)$ $p$ $p$ -nilai "melebih-lebihkan bukti" terhadap nol. Sarannya adalah menggunakan batas yang lebih rendah pada faktor Bayes untuk nilai nol, bukan nilai ; di bawah beberapa asumsi luas batas bawah ini ternyata diberikan oleh , yaitu, -value secara efektif dikalikan dengan yang merupakan faktor sekitar hingga untuk persamaan rentang -nilai. Pendekatan ini telah didukung oleh Steven Goodman juga. $p$ $-ep\log(p)$ $p$ $-e\log(p)$ $10$ $20$ $p$
  
  Pembaruan selanjutnya: Lihat kartun yang bagus yang menjelaskan ide-ide ini dengan cara yang sederhana.
  
  Bahkan kemudian pembaruan: Lihat Dimiliki & Ott, 2018, On -Values dan Bayes Factors $p$ untuk tinjauan komprehensif dan analisis lebih lanjut dari mengkonversi nilai untuk faktor Bayes minimum. Berikut ini satu tabel dari sana: $p$
- Valen Johnson menyarankan hal serupa dalam makalah PNAS 2013-nya ; sarannya kira-kira bermuara pada mengalikan nilai- dengan yaitu sekitar hingga . $p$ $\sqrt{-4\pi\log(p)}$ $5$ $10$
Untuk kritik singkat terhadap makalah Johnson, lihat balasan Andrew Gelman's dan @ Xi'an di PNAS. Untuk pertentangan argumen dengan Berger & Sellke 1987, lihat Casella & Berger 1987 (Berger berbeda!). Di antara makalah diskusi APA, Stephen Senn berargumen secara eksplisit menentang salah satu dari pendekatan ini:

Probabilitas kesalahan bukan probabilitas posterior. Tentu saja, ada jauh lebih banyak untuk analisis statistik daripada nilai- tetapi mereka harus dibiarkan sendiri daripada cacat dalam beberapa cara untuk menjadi probabilitas posterior Bayesian kelas dua. $P$

Lihat juga referensi di koran Senn, termasuk yang ada di blog Mayo.
Pernyataan ASA mencantumkan "pemodelan keputusan-teoritik dan tingkat penemuan yang salah" sebagai alternatif lain. Saya tidak tahu apa yang mereka bicarakan, dan saya senang melihat ini dinyatakan dalam makalah diskusi oleh Stark:

Bagian "pendekatan lain" mengabaikan fakta bahwa asumsi beberapa metode tersebut identik dengan value. Memang, beberapa metode menggunakan nilai- sebagai input (misalnya, False Discovery Rate). $p$ $p$

Saya sangat skeptis bahwa ada sesuatu yang dapat menggantikan nilai- dalam praktik ilmiah aktual sehingga masalah yang sering dikaitkan dengan nilai- (krisis replikasi, -hacking, dll.) Akan hilang. Prosedur keputusan tetap, misalnya satu Bayesian, mungkin dapat "hack" dalam cara yang sama seperti -values dapat -hacked (untuk beberapa diskusi dan demonstrasi ini melihat ini 2014 posting blog oleh Uri Simonsohn ). $p$ $p$ $p$ $p$ $p$

Mengutip dari makalah diskusi Andrew Gelman:

Singkatnya, saya setuju dengan sebagian besar pernyataan ASA tentang nilai- tetapi saya merasa bahwa masalahnya lebih dalam, dan bahwa solusinya bukan untuk mereformasi nilai- atau untuk menggantinya dengan beberapa ringkasan atau ambang batas statistik lainnya, melainkan untuk bergerak menuju penerimaan yang lebih besar akan ketidakpastian dan merangkul variasi. $p$ $p$

Dan dari Stephen Senn:

Singkatnya, masalahnya kurang dengan nilai- per se tetapi dengan membuat idola dari mereka. Mengganti dewa palsu lain tidak akan membantu. $P$

Dan di sini adalah bagaimana Cohen memasukkannya ke dalam makalahnya yang terkenal dan sangat banyak dikutip (kutipan 3.5k) 1994 Bumi itu bulat ( ) di $p<0.05$ mana ia berargumen dengan sangat kuat terhadap nilai- : $p$

[...] tidak mencari alternatif ajaib untuk NHST, beberapa ritual mekanis objektif lainnya untuk menggantikannya. Itu tidak ada.

— amuba
sumber

1

@amoeba terima kasih, ini ringkasan yang bagus! Saya setuju dengan skeptisisme Anda - utas ini muncul sebagian karena saya membagikannya. Pada saat ini saya membiarkan utas terbuka - tanpa jawaban yang diterima - karena mungkin seseorang akan dapat memberikan contoh dan argumen yang meyakinkan bahwa ada beberapa alternatif yang benar dan baik.

— Tim

1

@amoeba tentang pembuat Wagenm dan BIC, baik untuk membandingkannya dengan kritik, misalnya oleh Gelman: andrewgelman.com/2008/10/23/i_hate_bic_blah

— Tim

2

Ini adalah jawaban yang benar-benar mengesankan yang layak menjadi jawaban teratas di CV. Saya dapat menambahkan hadiah lain beberapa saat setelah Tim.

— gung

Terima kasih, @ung, saya senang mendengarnya, itu berarti banyak dari Anda. Namun saya harus mengatakan bahwa saya hanya akrab dengan pengujian Bayesian dan tidak memiliki pengalaman langsung dengannya. Jadi jawaban ini memberikan ringkasan dari apa yang saya baca, tetapi itu bukan pendapat ahli.

— amoeba

1

Tidak, Anda tidak perlu informasi sebelum Bayes bekerja dengan baik. Seperti yang telah ditunjukkan Spiegelhalter dengan sangat baik, prior pricy yang skeptis memiliki peran utama dan mudah digunakan. Probabilitas posterior Bayesian memiliki keuntungan besar.

— Frank Harrell

27

Ini dua sen saya.

Saya berpikir bahwa pada titik tertentu, banyak ilmuwan terapan menyatakan "teorema" berikut:

$p\text{-value}<0.05\Leftrightarrow \text{my hypothesis is true}.$

dan sebagian besar praktik buruk datang dari sini.

$p$

Saya dulu bekerja dengan orang-orang yang menggunakan statistik tanpa benar-benar memahaminya dan ini adalah beberapa hal yang saya lihat:

$p<0.05$
$p<0.05$
$0.05$

Semua itu dilakukan oleh para ilmuwan yang fasih dan jujur dan tidak memiliki rasa kecurangan yang kuat. Mengapa IMHO, karena Teorema 1.

$p$ $0.05$ $p$ $<0.05$ $p$ $<0.05$

$p$

$p$ $>0.05$

$H_0: \mu_1 \ne \mu_2$ $p$ $H_0$ $p=0.2$

$p$ $p(\mu_1>\mu_2|x)$ $p(\mu_1<\mu_2|x)$ $\mu_1>\mu_2$ $\mu_2>\mu_1$ . Saya menjawab bahwa ini adalah cara untuk menafsirkannya dan dia menemukan ini luar biasa dan bahwa dia harus melihat lebih banyak data dan menulis makalah ... Maksud saya bukan bahwa "3" ini membantunya untuk memahami bahwa ada sesuatu dalam data (lagi-lagi 3 jelas anedoctic) tetapi itu menggarisbawahi bahwa dia salah mengartikan nilai-p sebagai "nilai-p> 0,05 berarti tidak ada kelompok yang menarik / setara". Jadi menurut saya, selalu setidaknya mendiskusikan hipotesis alternatif (es!) Adalah wajib, memungkinkan untuk menghindari penyederhanaan, memberikan elemen untuk diperdebatkan.

Kasus terkait lainnya adalah ketika para ahli ingin:

uji . Untuk itu mereka menguji dan menolak lalu menyimpulkan menggunakan fakta bahwa perkiraan ML dipesan. $\mu_1>\mu_2>\mu_3$ $\mu_1=\mu_2=\mu_3$ $\mu_1>\mu_2>\mu_3$

Menyebutkan hipotesis alternatif adalah satu-satunya solusi untuk menyelesaikan kasus ini.

Jadi dengan menggunakan peluang posterior, faktor Bayes atau rasio kemungkinan bersama dengan interval kepercayaan / kredibilitas tampaknya mengurangi masalah utama yang terlibat.

Salah tafsir umum dari value / interval kepercayaan adalah kelemahan yang relatif kecil (dalam praktiknya) $p$

Walaupun saya seorang penggemar Bayesian, saya benar-benar berpikir bahwa kesalahpahaman umum dari -value dan CI (yaitu -value bukan probabilitas bahwa hipotesis nol salah dan CI bukan interval yang berisi nilai parameter dengan 95). % kesempatan) bukan perhatian utama untuk pertanyaan ini (sementara saya yakin ini adalah poin utama dari sudut pandang filosofis). Pandangan Bayesian / Frequentist memiliki kedua jawaban yang relevan untuk membantu praktisi dalam "krisis" ini. $p$ $p$

Kesimpulan saya dua sen

Menggunakan interval yang kredibel dan faktor Bayes atau peluang posterior adalah apa yang saya coba lakukan dalam praktik saya dengan para ahli (tetapi saya juga antusias dalam rasio kemungkinan CI +). Saya datang ke statistik beberapa tahun yang lalu terutama dengan belajar sendiri dari web (terima kasih banyak kepada Cross Validated!) Dan tumbuh dengan banyak agitasi di sekitar nilai- . Saya tidak tahu apakah praktik saya bagus, tetapi secara pragmatis saya menemukan itu sebagai kompromi yang baik antara menjadi efisien dan membuat pekerjaan saya dengan benar. $p$

— peuhp
sumber

Mungkin Anda bisa mengedit contoh Anda menjadi lebih jelas karena untuk saat ini apa yang Anda hitung, data apa, dan dari mana angka-angka itu berasal?

— Tim

@Tim. Tks untuk feedbak. Contoh mana yang Anda referensikan?

— peuhp

"cobalah untuk membandingkan (hanya karena kita memiliki data) sebuah hipotesis: ambil 10 dan 10 data, hitung nilai-p. Temukan p = 0,2 ...."

— Tim

1

Saya juga tidak berpikir bahwa "mengetahui" hipotesis Anda adalah benar bahkan jika data tampaknya menyarankan sebaliknya adalah hal yang buruk. Tampaknya inilah yang dirasakan Gregor Mendel ketika ada sesuatu yang salah dengan eksperimennya, karena ia memiliki intuisi yang kuat sehingga teorinya benar.

— dsaxton

@dsaxton Sepenuhnya setuju dengan Anda. Mungkin tidak begitu jelas tetapi ini adalah satu hal yang saya coba ilustrasikan dalam poin 1 saya: nilai-p bukanlah kunci utama dari induksi ilmiah (sementara itu tampaknya untuk audiens tertentu). Ini adalah pengukuran statistik bukti melalui sejumlah data, pada kondisi tertentu. Dan dalam kasus di mana Anda memiliki terlalu banyak alasan eksternal untuk berpikir bahwa hip itu benar tetapi ketika data memang memberikan nilai p "baik", hal-hal lain dapat didiskusikan saat Anda menyebutkannya dengan tepat. Saya akan mencoba membuatnya lebih jelas di server saya.

— peuhp

24

$P$

Lebih banyak perangkat lunak tersedia untuk metode yang lebih sering daripada metode Bayesian.
Saat ini, beberapa analisis Bayesian membutuhkan waktu lama untuk dijalankan.
Metode Bayesian membutuhkan lebih banyak pemikiran dan lebih banyak waktu investasi. Saya tidak keberatan dengan bagian pemikirannya, tetapi waktunya sering singkat sehingga kami mengambil jalan pintas.
Bootstrap adalah teknik sehari-hari yang sangat fleksibel dan berguna yang lebih terhubung ke dunia frequentist daripada ke Bayesian.

$P$ $P$ membuat orang harus melakukan penyesuaian multiplisitas yang sewenang-wenang, bahkan menyesuaikan untuk tampilan data yang mungkin berdampak tetapi sebenarnya tidak.

$P$

Kecuali untuk model linear Gaussian dan distribusi eksponensial, hampir semua yang kita lakukan dengan inferensi frequentist adalah perkiraan (contoh yang baik adalah model logistik biner yang menyebabkan masalah karena fungsi kemungkinan lognya sangat non-kuadratik). Dengan inferensi Bayesian, semuanya tepat dalam kesalahan simulasi (dan Anda selalu dapat melakukan lebih banyak simulasi untuk mendapatkan probabilitas posterior / interval kredibel).

Saya telah menulis akuntansi yang lebih rinci mengenai pemikiran dan evolusi saya di http://www.fharrell.com/2017/02/my-journey-from-frequentist-to-bayesian.html

— Frank Harrell
sumber

3

p

$p$

2

p

$p$

3

t

$t$

1

Frank, terima kasih. Saya tidak terlalu terbiasa dengan pengujian Bayesian (dan belum pernah mendengar tentang Box & Tiao sebelumnya), tetapi kesan umum saya adalah bahwa faktor Bayes yang dikeluarkan seseorang dari tes Bayesian dapat sangat bergantung pada pilihan spesifik dari informasi yang kurang sebelum itu. masuk. Dan pilihan ini bisa sulit untuk memotivasi. Saya kira hal yang sama berlaku untuk interval yang kredibel - mereka akan sangat bergantung pada pilihan sebelumnya yang tidak informatif. Apakah itu tidak benar? Jika ya, lalu bagaimana seharusnya seseorang menghadapinya?

— amoeba

2

Ya walaupun saya tidak menggunakan faktor Bayes. Pendekatan frequentist memilih prior juga - yang mengabaikan semua pengetahuan lain tentang subjek. Saya lebih suka pendekatan skeptis Spiegelhalter sebelumnya. Di dunia yang ideal, Anda akan membiarkan skeptis Anda memberikan yang sebelumnya.

— Frank Harrell

6

Seorang peramal Brilliant Scott Armstrong dari Wharton menerbitkan sebuah artikel hampir 10 tahun yang lalu berjudul Uji Signifikansi Membahayakan Kemajuan dalam Peramalan dalam jurnal internasional peramalan jurnal yang ia dirikan bersama. Meskipun ini dalam peramalan, ini dapat digeneralisasikan untuk analisis data atau pengambilan keputusan. Dalam artikel itu ia menyatakan bahwa:

"Tes signifikansi statistik membahayakan kemajuan ilmiah. Upaya untuk menemukan pengecualian pada kesimpulan ini, sampai saat ini, tidak menghasilkan apa-apa."

Ini adalah bacaan yang sangat baik untuk setiap orang yang tertarik pada pandangan antitesis dari pengujian signifikansi dan nilai P.

Alasan mengapa saya suka artikel ini adalah karena Armstrong memberikan alternatif untuk pengujian signifikansi yang ringkas dan dapat dengan mudah dipahami terutama untuk non-ahli statistik seperti saya. Ini jauh lebih baik menurut saya daripada artikel ASA yang dikutip dalam pertanyaan:

Semuanya saya terus merangkul dan sejak itu berhenti menggunakan pengujian signifikansi atau melihat nilai-nilai P kecuali ketika saya melakukan studi eksperimental acak atau eksperimen semu. Saya harus menambahkan eksperimen acak sangat jarang dalam praktiknya kecuali dalam industri farmasi / ilmu kehidupan dan dalam beberapa bidang Teknik.

— peramal cuaca
sumber

4

Apa maksud Anda "percobaan acak sangat jarang dilakukan kecuali di industri farmasi dan di beberapa bidang Teknik"? Eksperimen acak ada di mana - mana dalam biologi dan psikologi.

— amoeba

Saya mengeditnya untuk memasukkan ilmu kehidupan.

— peramal

2

Oke, tetapi mengatakan rand itu. exp. "sangat jarang" kecuali dalam ilmu kedokteran dan kehidupan dan psikologi pada dasarnya mengatakan bahwa mereka "sangat umum". Jadi saya tidak yakin dengan maksud Anda.

— amoeba

6

$p$

$p$ . Saya masih berpikir ini adalah pendekatan yang memadai, yang meninggalkan pertanyaan penerapan ilmiah dari temuan di tangan para ahli konten. Sekarang, kesalahan yang kita temukan dalam aplikasi modern sama sekali bukan kesalahan statistik sebagai sains. Juga bermain adalah memancing, ekstrapolasi, dan berlebihan. Memang, jika (katakanlah) seorang ahli jantung harus berbohong dan mengklaim bahwa obat yang menurunkan tekanan darah rata-rata 0,1 mmHg adalah "signifikan secara klinis" tidak ada statistik yang akan melindungi kita dari ketidakjujuran semacam itu.

Kita perlu mengakhiri keputusan inferensi statistik teoretis. Kita harus berusaha untuk berpikir di luar hipotesis. Kesenjangan yang tumbuh antara utilitas klinis dan investigasi yang didorong oleh hipotesis membahayakan integritas ilmiah. Studi "signifikan" sangat sugestif tetapi jarang menjanjikan temuan klinis yang berarti.

Ini terbukti jika kita memeriksa atribut inferensi didorong hipotesis:

Hipotesis nol yang dinyatakan dibuat-buat, tidak sesuai dengan pengetahuan saat ini, dan menentang alasan atau harapan.
Hipotesis mungkin bersinggungan dengan titik yang coba penulis buat. Statistik jarang selaras dengan banyak diskusi berikutnya dalam artikel, dengan penulis membuat klaim yang jauh menjangkau, misalnya, studi observasional mereka memiliki implikasi untuk kebijakan publik dan penjangkauan.
Hipotesis cenderung tidak lengkap dalam arti bahwa mereka tidak cukup mendefinisikan populasi yang diminati, dan cenderung mengarah pada generalisasi yang berlebihan.

Bagi saya, alternatifnya ada pendekatan meta-analitik, setidaknya pendekatan kualitatif. Semua hasil harus diperiksa dengan teliti terhadap temuan dan perbedaan "serupa" lainnya yang dijelaskan dengan sangat hati-hati, terutama kriteria inklusi / eksklusi, unit atau skala yang digunakan untuk paparan / hasil, serta ukuran efek dan interval ketidakpastian (yang diringkas dengan CI 95% terbaik) ).

Kita juga perlu melakukan uji coba konfirmasi independen. Banyak orang terombang-ambing oleh satu percobaan yang tampaknya signifikan, tetapi tanpa replikasi kita tidak dapat percaya bahwa penelitian ini dilakukan secara etis. Banyak yang membuat karier ilmiah karena pemalsuan bukti.

— AdamO
sumber

"Saran asli Fisher adalah bahwa para ilmuwan harus secara kualitatif membandingkan nilai-p dengan kekuatan penelitian dan menarik kesimpulan di sana." Saya suka poin ini --- apakah Anda memiliki referensi yang bisa saya sebutkan di mana Fisher mengatakan ini? Ini akan menjadi langkah besar ke depan jika para ilmuwan beralih dari dikotomi sederhana p <0,05 ke dikotomi hanya-sedikit-kurang-sederhana: "Jika p <0,05 DAN kekuatan tinggi, kami memiliki bukti yang cukup kuat. Jika p> 0,05 OR kekuatannya rendah, kami akan menahan penilaian tentang hipotesis ini sampai kami mendapatkan lebih banyak data. "

— civilstat

6

$p$ $p$ $p$

Dua referensi dari literatur medis adalah (1) oleh Langman, MJS berjudul Menuju estimasi dan interval kepercayaan dan Gardner MJ dan Altman, DG berjudul Interval kepercayaan daripada nilai {P}: estimasi daripada pengujian hipotesis

— Nyonya
sumber

2

Sebenarnya, CI tidak menunjukkan ukuran efek dan presisi, periksa misalnya Morey et al (2015) "Kekeliruan menempatkan kepercayaan dalam interval kepercayaan" Psychonomic Bulletin & Review: learnbayes.org/papers/confidenceIntervalsFallacy

— Tim

8

@Tim, kertas bagus, saya belum pernah melihatnya sebelumnya; Saya menyukai contoh kapal selam. Terima kasih untuk tautannya. Tetapi orang harus mengatakan bahwa itu ditulis oleh partisan Bayesian sejati: "Interval non-Bayesian memiliki sifat yang tidak diinginkan, bahkan aneh, yang akan menyebabkan analis yang masuk akal untuk menolak mereka sebagai cara untuk menarik kesimpulan". Analis yang masuk akal! Kesombongan yang mengesankan.

— amoeba

1

@amoeba setuju, saya hanya memberikan contoh tandingan, karena, bagi saya, tidak begitu jelas bahwa alternatifnya jelas dan langsung seperti yang mungkin muncul pada pandangan pertama.

— Tim

4

Meskipun menarik, saya tidak menemukan contoh kapal selam yang menarik. Tidak ada ahli statistik yang dapat berpikir seperti yang ada dalam contoh ini. Anda tidak berhenti berpikir dan menerapkan metode secara membabi buta ke semua situasi hanya karena berguna dalam situasi lain.

— dsaxton

2

@amoeba: Dalam kutipan khusus itu, "Interval non-Bayesian" merujuk secara khusus pada interval yang dibahas dalam contoh itu, tidak semua interval dibenarkan oleh logika non-Bayesian. Lihat di sini untuk lebih banyak konteks: stats.stackexchange.com/questions/204530/…

— richarddmorey

1

Pilihan saya adalah terus menggunakan nilai p, tetapi hanya menambahkan interval kepercayaan / kredibel, dan mungkin untuk interval prediksi hasil primer. Ada buku yang sangat bagus dari Douglas Altman (Statistics with Confidence, Wiley), dan berkat pendekatan boostrap dan MCMC, Anda selalu dapat membangun interval yang cukup kuat.

— Joe_74
sumber

6

Saya pikir Anda tidak benar-benar menjawab pertanyaan utama yaitu "mengapa mereka lebih baik?" / "Mengapa pendekatan ini harus meyakinkan peneliti utama Anda, editor, atau pembaca?". Bisakah Anda mengembangkan pilihan Anda?

— peuhp

1. Itu hanya memungkinkan praktik saat ini. 2. Ada kecenderungan untuk melakukan "pengujian signifikansi pintu belakang" dengan CI, 3. Pengujian signifikansi (dengan nilai-p atau CI) mengarah pada tingkat reproduksibilitas yang rendah (lihat artikel oleh Tim Lash). 4. Para peneliti tidak dapat diganggu untuk menetapkan batas atau ambang batas efek yang signifikan secara klinis.

— AdamO

1

$p$

mengembangkan model yang lebih canggih yang mampu mensimulasikan hasil dalam populasi target
mengidentifikasi dan mengukur atribut dari populasi target di mana keputusan, perlakuan, atau kebijakan yang diusulkan dapat diimplementasikan
Perkiraan dengan cara simulasi perkiraan kerugian dalam unit mentah dari jumlah target seperti tahun kehidupan, kualitas tahun hidup disesuaikan, dolar, hasil panen dll, dan untuk menilai ketidakpastian estimasi itu.

Dengan segala cara ini tidak menghalangi pengujian signifikansi hipotesis normal, tetapi ini menggarisbawahi bahwa temuan signifikan secara statistik sangat awal, langkah perantara dalam perjalanan menuju penemuan nyata dan kita harus mengharapkan para peneliti untuk melakukan lebih banyak lagi dengan temuan mereka.

— AdamO
sumber

ASA membahas batasan nilai- - apa saja alternatifnya?

ppp

ppp

Salah tafsir umum dari value / interval kepercayaan adalah kelemahan yang relatif kecil (dalam praktiknya)ppp

Kesimpulan saya dua sen

$p$

$p$

Salah tafsir umum dari value / interval kepercayaan adalah kelemahan yang relatif kecil (dalam praktiknya) $p$