Apa yang salah dengan komik Frequentists vs Bayesians XKCD?

113

nomor komik xkcd 1132

Komik xkcd ini (Frequentists vs Bayesians) mengolok-olok seorang ahli statistik yang sering mendapatkan hasil yang jelas salah.

Namun bagi saya nampaknya penalarannya benar dalam arti mengikuti metodologi frequentist standar.

Jadi pertanyaan saya adalah "apakah dia menerapkan metodologi frequentist dengan benar?"

Jika tidak: apa yang akan menjadi kesimpulan sering yang benar dalam skenario ini? Bagaimana mengintegrasikan "pengetahuan sebelumnya" tentang stabilitas matahari dalam metodologi frequentist?
Jika ya: wtf? ;-)

bayesian frequentist

— repied2
sumber

17

Diskusi di blog Gelman: andrewgelman.com/2012/11/16808

— Glen

5

Saya pikir banyak yang salah, baik dari sudut pandang frequentist maupun Bayesian. Kritik terbesar saya masing-masing: Pertama, nilai-nilai P pada akhirnya adalah heuristik dan merupakan sifat dari sejumlah hal termasuk masalah statistik, data, dan eksperimen. Di sini, ketiganya secara keliru diwakili untuk pertanyaan khusus itu. Kedua, "Bayesian" menggunakan pendekatan teoretik keputusan yang tidak harus Bayesian. Itu lucu.

— Momo

5

Untuk mengeluarkannya dari dunia statistik .... matahari tidak cukup besar untuk pergi nova. QED, Bayesian benar. ( Sebaliknya, Matahari akan menjadi Raksasa Merah )

— Ben Brocka

3

@Glen et alii, khususnya, perhatikan tanggapan Randall Munroe terhadap Gelman: andrewgelman.com/2012/11/16808/#comment-109366

— jthetzel

2

Alasan mengapa ahli statistik sering di sini adalah bodoh bukan karena ia sering, tetapi karena ia jelas tahu cara kerja mesin, oleh karena itu tahu itu adalah pengukuran yang tidak tepat - dan tetap membuat kesimpulan.

— rvl

44

Masalah utama adalah bahwa percobaan pertama (Sun pergi nova) tidak dapat diulang, yang membuatnya sangat tidak cocok untuk metodologi yang sering menginterpretasikan probabilitas sebagai perkiraan seberapa sering suatu peristiwa memberi bahwa kita dapat mengulangi percobaan berkali-kali. Sebaliknya, probabilitas bayesian ditafsirkan sebagai tingkat keyakinan kami yang memberikan semua pengetahuan sebelumnya, sehingga cocok untuk alasan yang masuk akal tentang peristiwa satu kali. Eksperimen lemparan dadu dapat diulangi, tetapi saya merasa sangat tidak mungkin bahwa frequentist dengan sengaja akan mengabaikan pengaruh percobaan pertama dan menjadi sangat yakin akan signifikansi hasil yang diperoleh.

Meskipun tampaknya penulis mengejek ketergantungan yang sering pada eksperimen berulang dan ketidakpercayaan mereka pada prior, memberikan ketidakcocokan pengaturan eksperimental dengan metodologi frequentist, saya akan mengatakan bahwa tema sebenarnya dari komik ini bukanlah metodologi yang sering terjadi tetapi tidak mengikuti metodologi yang tidak cocok secara umum. Apakah itu lucu atau tidak, itu terserah Anda (bagi saya itu) tetapi saya pikir itu lebih menyesatkan daripada menjelaskan perbedaan antara dua pendekatan.

— Matija Piskorec
sumber

1

(+1) Referensi yang bagus tentang asumsi pengulangan dalam frekuensi yang kuat dan krusial ini adalah Statistik Inferensi dalam Sains (2000) , bab 1. (Meskipun ada banyak masalah sehingga sulit untuk mengatakan mana yang merupakan yang utama )

36

Tidak begitu cepat dengan argumen pengulangan ... Pertama, percobaan yang berulang adalah query dari mesin tidak matahari akan nova Kebenaran yang adalah objek tetap tetapi tidak diketahui inferensi. Eksperimen permintaan tentu saja dapat diulang, dan jika itu untuk beberapa kali lagi, strategi yang sering muncul dapat dengan mudah masuk akal.

— conjugateprior

6

Kedua, orang tidak boleh terlalu ketat pada bisnis pengulangan, jangan sampai sering terjebak tidak mampu menyimpulkan apa pun dalam situasi non-eksperimental. Asumsikan sejenak bahwa 'sun goes nova' adalah acara kandidat. Saya bukan fisikawan, tetapi saya diberitahu bahwa peristiwa 'sun goes nova' lebih sering terjadi (hanya saja tidak begitu banyak di sekitar sini), jadi ini terdengar seperti pengulangan. Bagaimanapun, orang-orang seperti David Cox (dalam 'Yayasan Statistik') dengan riang mengatakan hal-hal seperti: "pengulangan yang dimaksud hampir selalu bersifat hipotetis . Ini dengan sendirinya tampaknya tidak ada kekurangan".

— conjugateprior

7

Kita dapat melihat matahari sebagai sampel acak dari populasi matahari di alam semesta paralel di mana kita pada prinsipnya dapat mengulangi percobaan jika saja kita memiliki cermin kuantum! ; o)

— Dikran Marsupial

2

Mengapa pengecekan matahari yang meledak tidak bisa diulang? Saya memeriksa setiap pagi, dan belum meledak.

— GKFX

27

Sejauh yang saya bisa lihat bit frequentist masuk akal sejauh ini:

$H_0$ $H_1$ $H_0$ $H_0$

$H_1$ $H_0$ $H_0$ $H_1$ adalah benar, hanya saja bertahan tes dan terus sebagai hipotesis yang layak setidaknya sejauh tes berikutnya.

Bayesian juga hanya akal sehat, mencatat bahwa tidak ada ruginya dengan membuat taruhan. Saya yakin pendekatan frequentist, ketika biaya false-positive dan false-negative diperhitungkan (Neyman-Peason?) Akan menarik kesimpulan yang sama dengan menjadi strategi terbaik dalam hal keuntungan jangka panjang.

Untuk meringkas: Sering dan Bayesian sedang ceroboh di sini: Sering untuk secara membabi buta mengikuti resep tanpa mempertimbangkan tingkat signifikansi yang sesuai, biaya false-positive / false-negative atau fisika masalah (yaitu tidak menggunakan akal sehatnya) . Bayesian menjadi ceroboh karena tidak menyatakan priornya secara eksplisit, tetapi sekali lagi menggunakan akal sehat bahwa prior yang dia gunakan jelas benar (jauh lebih mungkin bahwa mesin itu berbohong daripada matahari benar-benar telah meledak), kecerobohan mungkin dimaafkan.

— Dikran Marsupial
sumber

4

Menolak hipotesis nol berarti bahwa observasi tidak akan mungkin JIKA H0 itu benar. Anda tidak boleh "menerima" H1 atas dasar ini karena pada dasarnya mengatakan bahwa H1 harus benar karena pengamatan tidak akan mungkin jika H0 benar. Namun pengamatan mungkin juga tidak mungkin di bawah H1 (yang diabaikan ritual nol) dan H1 mungkin lebih kecil daripada H0 a-priori (yang ritual nol juga abaikan). Menerima hipotesis adalah kemiringan yang licin untuk menafsirkan tes yang sering sebagai tes Bayesian, yang biasanya menghasilkan kesalahpahaman dalam kasus-kasus yang kurang mendasar.

— Dikran Marsupial

4

Baru saja menemukan komentar Anda. Dan saya memiliki pertanyaan yang sama dengan @glassy. Saya ingin menolak komentar Anda bahwa jika hipotesis Anda mencakup seluruh ruang peristiwa, di sini menjadi {"Sun telah pergi nova", "Sun tidak pergi ke nova"}, saya mengalami kesulitan memahami poin Anda bagaimana bisa menolak " Sun telah pergi nova "tidak secara otomatis menyebabkan" Sun tidak pergi nova ". Menyatakan pernyataan salah menyiratkan negasinya pasti benar. Akan lebih bagus jika Anda dapat memberikan beberapa teks referensi yang dapat diandalkan di mana poin ini dijelaskan dengan jelas jika memungkinkan. Saya tertarik untuk mencari tahu lebih banyak tentang itu.

— Berarti-makna

3

Menolak hipotesis nol tidak secara otomatis berarti bahwa hipotesis nol mungkin salah, hanya saja masuk akal untuk melanjutkan dengan hipotesis alternatif. Ini (sebagian) karena uji hipotesis frequentist tidak memperhitungkan probabilitas hipotesis sebelumnya. Lebih mendasar lagi, metode frequentist tidak dapat digunakan untuk menetapkan probabilitas kebenaran dari setiap hipotesis tertentu, sehingga hubungan antara "kita dapat menolak hipotesis nol" dan "hipotesis nol mungkin salah" adalah yang sepenuhnya subjektif, sejauh Saya dapat melihat.

— Dikran Marsupial

2

Ini adalah poin saya, keputusan apakah kita menerima H1 adalah subyektif dan bukan konsekuensi yang diperlukan dari hasil tes "penolakan H0 biasanya mengarah pada penerimaan H1". Masalahnya adalah bahwa informasi yang Anda butuhkan untuk membuat keputusan [P (H0), P (H1), P (Z | H1)] tidak muncul dalam tes. Pada dasarnya beberapa informasi ini sebagian dimasukkan dalam menetapkan ambang, tetapi ini umumnya tidak lengkap dan sering dibiarkan tidak dinyatakan dan tidak dapat dibenarkan. Prior masih ada dalam tes yang sering, sama subyektif, tetapi dibiarkan tersirat - yang terburuk dari kedua dunia! ; o)

— Dikran Marsupial

3

α

$\alpha$

\neq

$\ne$

25

Mengapa hasil ini tampak "salah?" Seorang Bayesian akan mengatakan bahwa hasilnya tampaknya berlawanan dengan intuisi karena kita memiliki kepercayaan "sebelumnya" tentang kapan matahari akan meledak, dan bukti yang diberikan oleh mesin ini tidak cukup untuk menghilangkan keyakinan itu (sebagian besar karena ketidakpastian itu karena membalik koin). Tetapi seorang frequentist mampu membuat penilaian seperti itu, ia hanya harus melakukannya dalam konteks data, yang bertentangan dengan kepercayaan.

Sumber nyata dari paradoks adalah kenyataan bahwa uji statistik frequentist yang dilakukan tidak memperhitungkan semua data yang tersedia. Tidak ada masalah dengan analisis dalam komik, tetapi hasilnya tampak aneh karena kita tahu bahwa matahari kemungkinan besar tidak akan meledak untuk waktu yang lama. Tapi BAGAIMANA kita tahu ini? Karena kami telah melakukan pengukuran, pengamatan, dan simulasi yang dapat membatasi kapan matahari akan meledak. Jadi, pengetahuan penuh kami harus memperhitungkan titik-titik pengukuran dan data tersebut.

Dalam analisis Bayesian, ini dilakukan dengan menggunakan pengukuran-pengukuran itu untuk membangun prior (walaupun, prosedur untuk mengubah pengukuran menjadi prior tidak terdefinisi dengan baik: pada titik tertentu harus ada prior awal, atau kalau tidak, itu "turtles all jalan turun "). Jadi, ketika Bayesian menggunakan pendahulunya, dia benar-benar memperhitungkan banyak informasi tambahan yang analisis p-value frequentist tidak rahasia untuk.

Jadi, untuk tetap sejajar, analisis penuh masalah sering harus mencakup data tambahan yang sama tentang ledakan matahari yang digunakan untuk membangun bayesian sebelumnya. Tetapi, alih-alih menggunakan prior, frequentist hanya akan memperluas kemungkinan yang ia gunakan untuk menggabungkan pengukuran-pengukuran lainnya, dan nilai-pnya akan dihitung menggunakan kemungkinan penuh itu.

$L = L$ $L$

Analisis frequentist penuh kemungkinan besar akan menunjukkan bahwa bagian kedua dari kemungkinan akan jauh lebih membatasi dan akan menjadi kontribusi dominan untuk perhitungan nilai-p (karena kita memiliki banyak informasi tentang matahari, dan kesalahan pada informasi ini kecil (mudah-mudahan)).

Secara praktis, seseorang tidak perlu keluar dan mengumpulkan semua poin data yang diperoleh dari 500 tahun terakhir untuk melakukan perhitungan secara berkala, seseorang dapat memperkirakannya sebagai beberapa istilah kemungkinan sederhana yang mengkodekan ketidakpastian apakah matahari telah meledak atau tidak. Ini kemudian akan menjadi mirip dengan sebelumnya Bayesian, tetapi sedikit berbeda secara filosofis karena itu kemungkinan, yang berarti bahwa itu mengkodekan beberapa pengukuran sebelumnya (sebagai lawan dari sebelumnya, yang mengkodekan beberapa kepercayaan apriori). Istilah baru ini akan menjadi bagian dari kemungkinan dan akan digunakan untuk membangun interval kepercayaan (atau nilai-p atau apa pun), yang bertentangan dengan bayesian sebelumnya, yang diintegrasikan untuk membentuk interval atau posisi yang kredibel.

— George Lewis
sumber

1

Ini harus menjadi jawaban yang diterima atau paling banyak dipilih.

— Amelio Vazquez-Reina

11

$p$ $t$ $T$ ${\rm Prob}[T \ge t| H_0]$ $T$ $\chi^2$ $p$ $0, 1/36, 2/36, \ldots$ .

Tentu saja, pendekatan "kerap kali" ini tidak ilmiah, karena hasilnya akan sulit direproduksi. Begitu Sun pergi supernova, itu tetap supernova, jadi detektor harus terus berkata "Ya" berulang kali. Namun, pengerjaan berulang mesin ini tidak mungkin menghasilkan hasil "Ya" lagi. Ini dikenali di area yang ingin menampilkan diri mereka sebagai keras dan mencoba untuk mereproduksi hasil percobaan mereka ... yang, sejauh yang saya mengerti, terjadi dengan probabilitas di mana saja antara 5% (menerbitkan kertas asli adalah kesalahan tipe I murni) dan suatu tempat sekitar 30-40% di beberapa bidang medis. Orang-orang meta-analisis dapat mengisi Anda dengan angka yang lebih baik, ini hanya desas-desus yang datang dari waktu ke waktu melalui selentingan statistik.

Satu masalah lain dari perspektif frequentist "benar" adalah bahwa menggulung dadu adalah tes yang paling tidak kuat, dengan daya = tingkat signifikansi (jika tidak lebih rendah; daya 2,7% untuk tingkat signifikansi 5% tidak perlu dibanggakan). Teori Neyman-Pearson untuk uji-t berselisih karena menunjukkan bahwa ini adalah UMPT, dan banyak teori statistik alis yang tinggi (yang harus saya pahami, saya harus akui) dikhususkan untuk memperoleh kurva daya dan menemukan kondisi ketika diberikan Tes adalah yang paling kuat di kelas yang diberikan. (Kredit: @Dikran Marsupial menyebutkan masalah kekuasaan di salah satu komentar.)

Saya tidak tahu apakah ini menyusahkan Anda, tetapi ahli statistik Bayesian ditampilkan di sini sebagai orang yang tidak tahu matematika dan memiliki masalah judi. Seorang ahli statistik Bayesian yang tepat akan mendalilkan sebelumnya, membahas tingkat objektivitasnya, menurunkan posterior, dan menunjukkan seberapa banyak yang mereka pelajari dari data. Tidak ada yang dilakukan, jadi proses Bayes telah disederhanakan terlalu banyak seperti yang sering dilakukan.

Situasi ini menunjukkan skrining klasik untuk masalah kanker (dan saya yakin para biostatistik dapat menggambarkannya lebih baik daripada yang saya bisa). Ketika skrining untuk penyakit langka dengan instrumen tidak sempurna, sebagian besar positif keluar menjadi positif palsu. Ahli statistik yang cerdas tahu itu, dan tahu lebih baik untuk menindaklanjuti penyaringan yang murah dan kotor dengan biopsi yang lebih mahal dan lebih akurat.

— Tugas
sumber

2

Jika saya memahami paragraf pertama Anda dengan benar, Anda mengatakan bahwa ambang (0,05 dalam komik) disetel terlalu tinggi. Jika komik memiliki lima dadu, bukan dua, apakah Anda akan menerima ambang yang cukup rendah? Bagaimana Anda memutuskan ambang batas?

— ShreevatsaR

9

Saya pikir ahli statistik Bayesian hanya memperhitungkan bahwa kemungkinan meledaknya matahari jauh, jauh lebih kecil daripada peluang mesin itu berbohong (jadi, tidak harus penjudi yang tidak mengerti).

— josh

8

Lebih tepatnya: JIKA matahari pergi nova, pemenang taruhan tidak akan dapat menguangkan $ 50 ...

— kjetil b halvorsen

6

Saya pikir intinya di sini adalah ahli statistik sering mengikuti resep tanpa memikirkan tujuan sebenarnya dari analisis. Yang disebut "Bayesian" sebenarnya tidak menjadi Bayesian, hanya seseorang yang menggunakan akal sehat mereka. Ada banyak contoh resep buta berikut di jurnal sains, yang mengapa kartun itu lucu.

— Dikran Marsupial

3

Kurangnya statistik uji tidak bisa menjadi masalah saya tidak berpikir. Statistik uji hanyalah beberapa fungsi dari data. Jadi fungsi identitas, yaitu di sini datum itu sendiri, akan berfungsi, setidaknya pada prinsipnya.

— conjugateprior

6

Tidak ada yang salah dengan komik ini, dan alasannya tidak ada hubungannya dengan statistik. Ini ekonomi. Jika frequentist benar, Bumi akan sama dengan tidak dapat dihuni dalam waktu 48 jam. Nilai $ 50 akan secara efektif nol. Bayesian, mengakui hal ini, dapat membuat taruhan mengetahui bahwa keuntungannya adalah $ 50 dalam kasus normal, dan sedikit tidak ada dalam kasus meledak-matahari.

— Tony Boyles
sumber

Ini memang "ada hubungannya dengan statistik" karena statistik Bayesian secara eksplisit memodelkan ini sebagai "meminimalkan fungsi kerugian";)

— Fabio Beltramini

5

Sekarang CERN telah memutuskan bahwa neutrino tidak lebih cepat dari cahaya - bagian depan radiasi elektromagnetik akan menghantam bumi sebelum perubahan neutrino diketahui. Setidaknya ini akan memiliki (efek jangka pendek) efek auroral yang spektakuler. Jadi fakta bahwa itu gelap tidak akan mencegah langit menyala; bulan dari bersinar terlalu terang (lih. "Inconstant Moon" karya Larry Niven) dan kilatan spektakuler ketika satelit buatan diuapkan dan dibakar sendiri.

Semua dalam semua - mungkin tes yang salah? (Dan sementara mungkin ada sebelumnya - tidak akan ada cukup waktu untuk penentuan posterior yang realistis.

— SimonN
sumber

1

Lebih banyak alasan untuk menolak hipotesis bahwa matahari telah meledak. :-)

— ShreevatsaR

Jadi inilah yang dimaksud di akhir artikel ketika penulis mengatakan: "studi konfirmasi diperlukan"?

— DWin

Sebenarnya, dengan santai meninjau kembali ini kesimpulan yang jelas ada dalam judul. Mesin mendeteksi apakah matahari sudah nova. Tidak ada kemungkinan kesalahan dalam deteksi. Bit neutrino tidak relevan. Mengingat hal itu, maka statistiknya sedemikian rupa sehingga mesin akan menjawab "tidak", "tidak", "tidak" ... dengan kemungkinan 1/36 menjadi pernyataan salah (ya) sampai kejadian satu kali yang mengakhiri statistik proses terjadi - ini juga akan memiliki kemungkinan 1/36 dilaporkan salah (tidak), jika mesin ditanyai selama interval 8 menit ganjil yang diperlukan untuk menjadi jelas di bumi.

— SimonN

4

Saya setuju dengan @GeorgeLewis bahwa mungkin terlalu dini untuk menyimpulkan bahwa pendekatan Frequentist salah - mari kita jalankan lagi detektor neutrino beberapa kali lagi untuk mengumpulkan lebih banyak data. Tidak perlu dipusingkan dengan prior.

— RobertF
sumber

2

Poin sederhana yang mungkin hilang di antara semua jawaban verbose di sini adalah bahwa frequentist digambarkan menggambar kesimpulannya berdasarkan pada sampel tunggal. Dalam praktiknya Anda tidak akan pernah melakukan ini.

Mencapai kesimpulan yang valid membutuhkan ukuran sampel yang signifikan secara statistik (atau dengan kata lain, sains perlu diulang). Jadi dalam praktiknya frequentist akan menjalankan mesin beberapa kali dan kemudian sampai pada kesimpulan tentang data yang dihasilkan.

Agaknya ini akan meminta mesin menanyakan pertanyaan yang sama beberapa kali lagi. Dan mungkin jika mesin hanya salah 1 dari setiap 36 kali pola yang jelas akan muncul. Dan dari pola itu (bukan dari satu bacaan tunggal), frequentist akan menarik kesimpulan (cukup akurat, saya akan katakan) mengenai apakah matahari telah meledak atau tidak.

— aroth
sumber

4

Apa yang Anda maksud dengan "ukuran sampel yang signifikan secara statistik"?

— Momo

@Momo - Lebih dari satu sampel, itu sudah pasti. Tidak sah untuk mengamati hasil yang tidak mungkin dan kemudian membuat kesimpulan bahwa hal yang mustahil telah terjadi tanpa terlebih dahulu mengulangi pengamatan untuk memastikan itu bukan kebetulan. Jika Anda menginginkan angka pasti yang mewakili ukuran sampel yang signifikan secara statistik atau algoritma untuk menentukan angka pastinya, mungkin seorang ahli statistik dapat menyediakannya; tapi saya bukan ahli statistik.

— tanggal

3

Saya tidak berpikir ada masalah tertentu dengan memiliki ukuran sampel 1 adalah masalah, masalahnya adalah bahwa tes tidak memiliki kekuatan statistik (yaitu tes tidak akan pernah menolak hipotesis nol ketika itu salah). Namun, ini mengungkapkan masalah dengan "ritual nol" yang dinodai dalam artikel, yang mengabaikan masalah kekuatan statistik (dan apa sebenarnya H1, atau informasi sebelumnya yang relevan dengan masalah).

— Dikran Marsupial

1

@Dikran Itu adalah salah satu jawaban terbaik! Masalah dengan "frequentist" dalam kartun adalah bahwa ritual statistik tertentu telah diikuti tanpa terlebih dahulu melakukan penilaian yang diperlukan dari sifat-sifat tes. (Seseorang bahkan dapat memperluas analisis Anda dengan mempertimbangkan apa fungsi kerugian yang relevan untuk keputusan ini seharusnya.) Dengan demikian kartun itu menusuk semua orang dengan rapi yang menggunakan prosedur statistik tanpa memahami mereka atau memeriksa asumsi mereka.

— Whuber

2

Jawaban untuk pertanyaan Anda: "apakah dia menerapkan metodologi frequentist dengan benar?" tidak, dia tidak menerapkan pendekatan frequentist. Nilai p untuk masalah ini tidak persis 1/36.

Pertama-tama kita harus mencatat bahwa hipotesis yang terlibat adalah

H0: Matahari belum meledak,

H1: Matahari telah meledak.

Kemudian,

p-value = P ("mesin mengembalikan ya" | Matahari belum meledak).

Untuk menghitung probabilitas ini, kita harus mencatat bahwa "mesin mengembalikan ya" setara dengan "detektor neutrino mengukur ledakan Matahari DAN memberi tahu hasil sebenarnya ATAU detektor neutrino tidak mengukur ledakan Matahari dan terletak pada kita".

Dengan asumsi bahwa lemparan dadu tidak tergantung pada pengukuran detektor neutrino, kita dapat menghitung nilai-p dengan mendefinisikan:

p0 = P ("detektor neutrino mengukur ledakan Matahari" | Matahari belum meledak),

Kemudian, nilai-p adalah

p-value = p0 x 35/36 + (1-p0) x 1/36 = (1/36) x (1+ 34 x p0).

Untuk masalah ini, nilai-p adalah angka antara 1/36 dan 35/36. Nilai p sama dengan 1/36 jika dan hanya jika p0 = 0. Artinya, asumsi tersembunyi dalam kartun ini adalah bahwa mesin detektor tidak akan pernah mengukur Matahari yang meledak jika Matahari belum meledak.

Selain itu, lebih banyak informasi harus dimasukkan dalam kemungkinan tentang bukti eksternal dari ledakan anova yang terjadi.

Semua yang terbaik.

— Alexandre Patriota
sumber

1

Saya tidak melihat masalah dengan pendekatan frequentist. Jika hipotesis nol ditolak, nilai-p adalah probabilitas kesalahan tipe 1. Kesalahan tipe 1 menolak hipotesis nol sejati. Dalam hal ini kita memiliki nilai p 0,028. Ini berarti bahwa di antara semua tes hipotesis dengan nilai-p ini yang pernah dilakukan, sekitar 3 dari seratus akan menolak hipotesis nol yang sebenarnya. Dengan konstruksi, ini akan menjadi salah satu kasus itu. Frequentists menerima bahwa kadang-kadang mereka akan menolak hipotesis nol benar atau mempertahankan hipotesis nol palsu (Tipe 2 kesalahan), mereka tidak pernah mengklaim sebaliknya. Selain itu, mereka secara tepat mengukur frekuensi kesimpulan salah mereka dalam jangka panjang.

Mungkin, cara yang kurang membingungkan untuk melihat hasil ini adalah dengan bertukar peran hipotesis. Karena dua hipotesis sederhana, ini mudah dilakukan. Jika nol adalah bahwa matahari menjadi nova, maka nilai-p adalah 35/36 = 0,972. Ini berarti bahwa ini bukan bukti yang menentang hipotesis bahwa matahari berubah menjadi nova, jadi kita tidak dapat menolaknya berdasarkan hasil ini. Ini sepertinya lebih masuk akal. Jika Anda berpikir. Mengapa ada orang yang menganggap bahwa matahari menjadi nova? Aku akan bertanya padamu. Mengapa ada orang yang melakukan eksperimen seperti itu jika pikiran tentang meledak matahari tampak konyol?

Saya pikir ini hanya menunjukkan bahwa seseorang harus menilai kegunaan percobaan sebelumnya. Eksperimen ini, misalnya, akan sama sekali tidak berguna karena menguji sesuatu yang sudah kita ketahui hanya dari melihat ke langit (Yang saya yakin menghasilkan nilai-p yang secara efektif nol). Merancang percobaan yang baik adalah syarat untuk menghasilkan ilmu yang baik. Jika percobaan Anda dirancang dengan buruk, maka apa pun alat inferensi statistik apa yang Anda gunakan, hasil Anda tidak akan berguna.

— Jose Garmilla
sumber

Tentu saja, tetapi Bayesian masih dapat menyimpulkan kesimpulan yang masuk akal dengan data / hasil percobaan yang diberikan . Terkadang Anda tidak dapat mengulangi percobaan atau mendesainnya seperti yang Anda inginkan.

— Amelio Vazquez-Reina

Itu poin yang adil, kesimpulan Bayesian dapat dengan mudah menggabungkan pengalaman sebelumnya yang membuatnya lebih sulit untuk hasil luar biasa untuk memiliki bobot statistik (Ini melindungi kita terhadap cela statistik). Namun, ini juga merupakan eksperimen yang tidak berguna dalam kerangka Bayesian. Sebelumnya sangat mendukung satu kesimpulan sehingga tidak ada hasil dalam percobaan ini yang dapat mengubahnya. Jika sebelumnya begitu kuat. Mengapa melakukan percobaan tanpa ada peluang untuk memodifikasinya? Ketika mempertimbangkan prior priors (Kemungkinan akan diubah oleh data), saya pikir metode Bayesian dan Frequentist biasanya menghasilkan hasil yang "sebanding".

— Jose Garmilla

0

Bagaimana mengintegrasikan "pengetahuan sebelumnya" tentang stabilitas matahari dalam metodologi frequentist?

Topik yang sangat menarik.

Inilah beberapa pemikiran, bukan analisis yang sempurna ...

Menggunakan pendekatan Bayesian dengan prior noninformatif biasanya memberikan inferensi statistik yang sebanding dengan yang sering terjadi.

Mengapa orang Bayesian memiliki keyakinan kuat sebelumnya bahwa matahari belum meledak? Karena dia tahu sebagai semua orang bahwa matahari tidak pernah meledak sejak awal.

Kita dapat melihat pada beberapa model statistik sederhana dengan prior konjugat yang menggunakan distribusi sebelumnya setara dengan menggunakan distribusi posterior yang berasal dari eksperimen awal dan awal non-infomatif.

Kalimat di atas menunjukkan bahwa Frequentist harus menyimpulkan sebagai Bayesian dengan memasukkan hasil percobaan awal dalam modelnya. Dan inilah yang sebenarnya dilakukan Bayesian : pendahulunya berasal dari pengetahuannya tentang eksperimen awal!

$N$ $x_i$ $i$ $x_i$ $\theta$ $x_i$ $x_i=1$ $i =1,\ldots,N$

Dalam masalah saat ini, kami memiliki pengamatan : dan hasil dari detektor. Pertanyaan alami adalah: berapa probabilitas bahwa matahari telah meledak, yaitu, apa ? Ini adalah dan memperkirakan dari pengamatan yang tersedia dan menghasilkan estimasi yang sangat dekat dengan $N+1$ $x_i$ $y=\{\text{Yes}\}$ $\Pr(x_{N+1}=0)$ $\theta$ $\theta$ $x_1, \ldots, x_N$ $y$ $1$ $N$ $y=\{\text{Yes}\}$ $\theta$ $\theta$

$H_0 =\{\text{the sun has not exploded}\}$

— Stéphane Laurent
sumber

Bagian "... dia tahu sebagai semua orang bahwa matahari tidak pernah meledak sejak awal" mengingatkan kita tentang liburan Amerika baru-baru ini di mana jutaan kalkun ( Meleagris gallopavo ) dikonsumsi. Seiring berjalannya waktu, setiap hari setiap kalkun cerdas "tahu sebagai semua orang" bahwa ia akan diberi makan dan dirawat, sampai hari yang menentukan (dan sepenuhnya tak terduga - baginya) di pertengahan November! Demikian pula, kepercayaan kita pada stabilitas matahari seharusnya rendah jika yang harus kita andalkan hanyalah sejarah pengamatan manusia yang relatif singkat tentang itu.

— whuber

@whuber saya lebih suka mengirimi Anda pesan ini secara pribadi. Apakah ada hubungan antara komentar Anda dan topik diskusi? Saya tidak tahu apakah saya yang membuat saya ide, tetapi sudah beberapa kali saya merasa bahwa Anda mengomentari jawaban saya terutama untuk mengatakan sesuatu terhadap jawaban saya. Latihan yang diajukan oleh OP adalah penafsiran kartun, dan saya merasa Anda mengkritik jawaban saya seolah-olah saya sedang berbicara tentang masalah nyata. Baru-baru ini saya tidak menghargai dan saya masih belum mengerti mengapa Anda membangkitkan "niat" di balik jawaban saya.

— Stéphane Laurent

Tidak ada kritik, tersirat atau dimaksudkan: kadang-kadang komentar benar-benar hanya ... komentar. Itu mencoba menyoroti (dengan cara yang dimaksudkan untuk menjadi lucu) pertanyaan-pertanyaan penting yang mengisyaratkan tetapi tidak dibahas dalam jawaban Anda. Saya menyesal Anda menganggap ini sebagai serangan pribadi atau serangan. BTW, ini adalah pertanyaan nyata: ia bertanya Bagaimana mengintegrasikan "pengetahuan sebelumnya" ... dalam metodologi frequentist? Pertanyaan ini membangkitkan kritik Hume tentang inferensi induktif dan membahas masalah-masalah dalam filsafat sains serta dasar-dasar statistik. Layak untuk dipikirkan!

— Whuber

Mungkin patut untuk ditunjukkan juga, bahwa sebagian besar reputasi Anda disebabkan oleh suara saya untuk jawaban Anda - yang saya tawarkan sebagai bukti material bahwa tidak ada perilaku sistematis yang saya lakukan terhadap Anda.

— whuber

2

Tidak, saya mengerti komentar Anda. Terjemahan Google Prancis dari komentar Anda sudah aneh, tetapi dengan menggabungkan keterampilan saya dalam bahasa Inggris dan terjemahan Google yang aneh, saya dapat memperoleh terjemahan yang benar. Saya akan lebih santai bulan depan, mungkin.

— Stéphane Laurent

0

Ini tentu saja merupakan tes tingkat 0,05 yang sering dilakukan - hipotesis nol ditolak kurang dari 5% dari waktu di bawah hipotesis nol dan bahkan kekuatan di bawah alternatif itu hebat.

Di sisi lain, informasi sebelumnya memberi tahu kita bahwa supernova matahari pada suatu titik waktu tertentu sangat tidak mungkin, tetapi kemungkinan berbohong adalah kebetulan.

Intinya: tidak ada yang salah dengan komik dan itu menunjukkan bahwa pengujian hipotesis yang tidak masuk akal mengarah pada tingkat penemuan palsu yang tinggi. Selain itu, Anda mungkin ingin mempertimbangkan informasi sebelumnya dalam penilaian Anda terhadap taruhan yang ditawarkan - itulah mengapa posterior Bayesian yang dikombinasikan dengan analisis keputusan sangat populer.

— Björn
sumber

-2

Dalam pandangan saya, analisis sering yang lebih benar adalah sebagai berikut: H0: Matahari telah meledak dan mesin mengatakan yang sebenarnya. H1: Matahari belum meledak dan mesin itu berbohong.

Nilai p di sini adalah = P (matahari meledak). p (mesin mengatakan yang sebenarnya) = 0,97. P (matahari meledak)

Ahli statistik tidak dapat menyimpulkan apa pun tanpa mengetahui sifat dari probabilitas kedua.

Meskipun kita tahu bahwa P (matahari meledak) adalah 0, karena matahari seperti bintang tidak meledak menjadi supernova.

— Chaitanya Anand
sumber