Apa perbedaan antara interval kepercayaan dan interval yang kredibel?


Jawaban:


313

Saya setuju sepenuhnya dengan penjelasan Srikant. Untuk memberikan putaran yang lebih heuristik di atasnya:

Pendekatan klasik umumnya berpendapat bahwa dunia adalah satu arah (misalnya, parameter memiliki satu nilai sebenarnya tertentu), dan mencoba melakukan eksperimen yang menghasilkan kesimpulan - tidak peduli nilai sebenarnya dari parameter - akan benar dengan setidaknya beberapa minimum kemungkinan; Peluang; probabilitas.

Akibatnya, untuk mengekspresikan ketidakpastian dalam pengetahuan kami setelah percobaan, pendekatan frequentist menggunakan "interval kepercayaan" - serangkaian nilai yang dirancang untuk memasukkan nilai sebenarnya dari parameter dengan beberapa probabilitas minimum, katakanlah 95%. Seorang frequentist akan merancang eksperimen dan prosedur interval kepercayaan 95% sehingga dari setiap 100 percobaan yang dijalankan mulai dari selesai, setidaknya 95 dari interval kepercayaan yang dihasilkan akan diharapkan untuk memasukkan nilai sebenarnya dari parameter. 5 lainnya mungkin sedikit salah, atau mereka mungkin sepenuhnya omong kosong - secara formal itu tidak masalah sejauh pendekatan yang bersangkutan, selama 95 dari 100 kesimpulan benar. (Tentu saja kami lebih suka mereka sedikit salah, bukan omong kosong total.)

Pendekatan Bayesian merumuskan masalah secara berbeda. Alih-alih mengatakan parameter hanya memiliki satu nilai benar (tidak diketahui), metode Bayesian mengatakan nilai parameter itu tetap tetapi telah dipilih dari beberapa distribusi probabilitas - dikenal sebagai distribusi probabilitas sebelumnya. (Cara lain untuk mengatakan itu adalah bahwa sebelum melakukan pengukuran apa pun, Bayesian memberikan distribusi probabilitas, yang mereka sebut status kepercayaan, pada apa nilai sebenarnya dari parameter tersebut terjadi.) "Sebelumnya" ini mungkin diketahui (bayangkan mencoba untuk memperkirakan ukuran truk, jika kita mengetahui distribusi ukuran truk keseluruhan dari DMV) atau mungkin asumsi yang diambil dari udara tipis. Inferensi Bayesian lebih sederhana - kami mengumpulkan beberapa data, dan kemudian menghitung probabilitas nilai yang berbeda dari parameter yang DIBERIKAN data. Distribusi probabilitas baru ini disebut "probabilitas posteriori" atau sekadar "posterior." Pendekatan Bayesian dapat meringkas ketidakpastian mereka dengan memberikan kisaran nilai pada distribusi probabilitas posterior yang mencakup 95% probabilitas - ini disebut "interval kredibilitas 95%."

Seorang partisan Bayesian mungkin mengkritik interval kepercayaan yang sering terjadi seperti ini: "Jadi bagaimana jika 95 dari 100 percobaan menghasilkan interval kepercayaan yang mencakup nilai sebenarnya? Saya tidak peduli dengan 99 percobaan yang saya TIDAK LAKUKAN; Saya peduli dengan percobaan ini SAYA MELAKUKAN. Aturan Anda memungkinkan 5 dari 100 menjadi omong kosong [nilai negatif, nilai tidak mungkin] selama 95 lainnya benar; itu konyol. "

Hard-hard yang sering terjadi mungkin mengkritik interval kredibilitas Bayesian seperti ini: "Jadi bagaimana jika 95% probabilitas posterior termasuk dalam kisaran ini? Bagaimana jika nilai sebenarnya adalah, katakanlah, 0,37? Jika ya, maka metode Anda, jalankan mulai selesai, akan menjadi SALAH 75% dari waktu. Tanggapan Anda adalah, 'Oh well, tidak apa-apa karena menurut sebelumnya sangat jarang bahwa nilainya 0,37,' dan itu mungkin begitu, tetapi saya ingin metode yang berfungsi untuk nilai APAPUN yang mungkin dari parameter. Saya tidak peduli tentang 99 nilai dari parameter yang TIDAK PUNYA; Saya peduli dengan satu nilai sebenarnya yang TIDAK PUNYA. Oh juga, omong-omong, jawaban Anda hanya benar. jika prior sudah benar. Jika Anda hanya mengeluarkannya dari udara tipis karena rasanya benar, Anda bisa pergi. "

Dalam arti kedua partisan ini benar dalam kritik mereka terhadap metode masing-masing, tetapi saya akan mendorong Anda untuk berpikir secara matematis tentang perbedaan - seperti yang dijelaskan Srikant.


Berikut adalah contoh lanjutan dari ceramah yang menunjukkan perbedaan tepat dalam contoh terpisah.

Ketika saya masih kecil, ibu saya kadang-kadang mengejutkan saya dengan memesan sebotol kue cokelat untuk dikirimkan melalui pos. Perusahaan pengiriman menyediakan empat jenis stoples kue - tipe A, tipe B, tipe C, dan tipe D, dan mereka semua berada di truk yang sama dan Anda tidak pernah yakin jenis apa yang akan Anda dapatkan. Setiap toples memiliki tepat 100 cookie, tetapi fitur yang membedakan toples kue yang berbeda adalah masing-masing distribusi chip coklat per cookie. Jika Anda meraih ke dalam stoples dan mengeluarkan satu cookie secara seragam secara acak, ini adalah distribusi probabilitas yang Anda dapatkan dari jumlah chip:

teks alternatif

Sebuah toples kue tipe-A, misalnya, memiliki 70 cookie dengan masing-masing dua chip, dan tanpa cookie dengan empat chip atau lebih! Stoples cookie tipe-D memiliki 70 cookie dengan masing-masing satu chip. Perhatikan bagaimana setiap kolom vertikal adalah fungsi massa probabilitas - probabilitas bersyarat dari jumlah chip yang Anda dapatkan, mengingat bahwa jar = A, atau B, atau C, atau D, dan setiap kolom berjumlah 100.

Saya dulu suka bermain game segera setelah petugas pengiriman menurunkan toples kue baru saya. Saya akan menarik satu cookie secara acak dari toples, menghitung keripik pada cookie, dan mencoba untuk mengekspresikan ketidakpastian saya - pada level 70% - yang bisa berupa toples. Jadi itu identitas jar (A, B, C atau D) yang merupakan nilai parameter yang diestimasi. Jumlah chip (0, 1, 2, 3 atau 4) adalah hasil atau pengamatan atau sampel.

Awalnya saya memainkan game ini menggunakan interval kepercayaan 70% yang sering. Interval seperti itu perlu memastikan bahwa tidak peduli nilai sebenarnya dari parameter, yang berarti apa pun toples kue yang saya dapatkan, interval tersebut akan mencakup nilai sebenarnya dengan setidaknya 70% kemungkinan.

Interval, tentu saja, adalah fungsi yang menghubungkan hasil (baris) dengan seperangkat nilai parameter (seperangkat kolom). Tetapi untuk membangun interval kepercayaan dan menjamin cakupan 70%, kita perlu bekerja "secara vertikal" - melihat masing-masing kolom secara bergantian, dan memastikan bahwa 70% dari probabilitas fungsi massa tertutup sehingga 70% dari waktu, yang Identitas kolom akan menjadi bagian dari interval yang dihasilkan. Ingatlah bahwa itu adalah kolom vertikal yang membentuk PMF

Jadi setelah melakukan prosedur itu, saya berakhir dengan interval ini:

masukkan deskripsi gambar di sini

Misalnya, jika jumlah chip pada cookie yang saya gambar adalah 1, interval kepercayaan saya adalah {B, C, D}. Jika angkanya 4, interval kepercayaan diri saya adalah {B, C}. Perhatikan bahwa karena setiap kolom berjumlah 70% atau lebih besar, maka tidak peduli kolom mana yang benar-benar kita masuki (terlepas dari botol mana pengirimnya turun), interval yang dihasilkan dari prosedur ini akan mencakup tabung yang benar dengan kemungkinan setidaknya 70%.

Perhatikan juga bahwa prosedur yang saya ikuti dalam membangun interval memiliki kebijaksanaan. Di kolom untuk tipe-B, saya bisa dengan mudah memastikan bahwa interval yang termasuk B adalah 0,1,2,3 bukannya 1,2,3,4. Itu akan menghasilkan cakupan 75% untuk stoples tipe-B (12 + 19 + 24 + 20), masih memenuhi batas bawah 70%.

Adikku Bayesia menganggap pendekatan ini gila. "Anda harus mempertimbangkan pengantar sebagai bagian dari sistem," katanya. "Mari kita perlakukan identitas toples itu sebagai variabel acak itu sendiri, dan mari kita asumsikan bahwa kurir memilih di antara mereka secara seragam - artinya dia memiliki keempatnya di truknya, dan ketika dia sampai di rumah kita dia mengambil satu secara acak, masing-masing dengan probabilitas seragam. "

"Dengan asumsi itu, sekarang mari kita lihat probabilitas gabungan seluruh peristiwa - jenis botol dan jumlah chip yang Anda gambar dari cookie pertama Anda," katanya, menggambar tabel berikut:

masukkan deskripsi gambar di sini

Perhatikan bahwa seluruh tabel sekarang menjadi fungsi massa probabilitas - artinya seluruh tabel berjumlah 100%.

"Oke," kataku, "kamu mau ke mana dengan ini?"

"Anda telah melihat probabilitas kondisional dari jumlah chip, mengingat stoples," kata Bayesia. "Itu semua salah! Apa yang Anda benar-benar pedulikan adalah probabilitas kondisional dari tabung yang mana, mengingat jumlah chip pada cookie! Interval 70% Anda harus dengan mudah memasukkan daftar stoples yang, secara total, memiliki kemungkinan 70% untuk menjadi toples yang sebenarnya. Bukankah itu jauh lebih sederhana dan lebih intuitif? "

"Tentu, tapi bagaimana kita menghitungnya?" Saya bertanya.

"Katakanlah kita tahu bahwa Anda mendapat 3 chip. Lalu kita bisa mengabaikan semua baris lain di tabel, dan cukup memperlakukan baris itu sebagai fungsi massa probabilitas. Kita perlu meningkatkan probabilitas secara proporsional sehingga setiap baris berjumlah 100 , meskipun. " Dia melakukanya:

masukkan deskripsi gambar di sini

"Perhatikan bagaimana setiap baris sekarang menjadi pmf, dan jumlahnya menjadi 100%. Kami telah membalikkan probabilitas bersyarat dari apa yang Anda mulai - sekarang adalah probabilitas pria tersebut telah menjatuhkan botol tertentu, mengingat jumlah chip pada cookie pertama. "

"Menarik," kataku. "Jadi sekarang kita cukup melingkari toples yang cukup di setiap baris untuk mendapatkan kemungkinan hingga 70%?" Kami melakukan hal itu, membuat interval kredibilitas ini:

masukkan deskripsi gambar di sini

Setiap interval termasuk satu set toples yang, posteriori , kemungkinan 70% menjadi toples yang sebenarnya.

"Yah, tunggu dulu," kataku. "Aku tidak yakin. Mari kita letakkan dua jenis interval secara berdampingan dan membandingkannya untuk cakupan dan, dengan asumsi bahwa kurir mengambil setiap jenis botol dengan probabilitas yang sama, kredibilitas."

Di sini mereka:

Interval kepercayaan:

masukkan deskripsi gambar di sini

Interval kredibilitas:

masukkan deskripsi gambar di sini

"Lihat betapa gilanya interval kepercayaan dirimu?" kata Bayesia. "Kamu bahkan tidak punya jawaban yang masuk akal ketika kamu menggambar kue dengan nol chip! Kamu hanya mengatakan itu interval kosong. Tapi itu jelas salah - itu harus menjadi salah satu dari empat jenis stoples. Bagaimana kamu bisa hidup dengan sendiri, menyatakan interval pada akhir hari ketika Anda tahu intervalnya salah? Dan bahkan ketika Anda menarik cookie dengan 3 chip - interval Anda hanya benar 41% dari waktu. Menyebut ini kepercayaan '70% ' Interval adalah omong kosong. "

"Yah, hei," jawab saya. "Itu benar 70% dari waktu, tidak peduli kendi mana yang dijatuhkan oleh kurir. Itu jauh lebih banyak daripada yang bisa Anda katakan tentang interval kredibilitas Anda. Bagaimana jika toples itu tipe B? Maka interval Anda akan salah 80% dari waktu , dan hanya mengoreksi 20% dari waktu! "

"Ini sepertinya masalah besar," aku melanjutkan, "karena kesalahanmu akan berkorelasi dengan jenis toples. Jika kamu mengirimkan 100 robot 'Bayesian' untuk menilai jenis toples yang kamu miliki, masing-masing robot mengambil satu cookie, kamu Mengatakan kepada saya bahwa pada hari-hari tipe B, Anda akan mengharapkan 80 robot untuk mendapatkan jawaban yang salah, masing-masing memiliki> 73% kepercayaan pada kesimpulan yang salah! Itu menyusahkan, terutama jika Anda ingin sebagian besar robot menyetujui jawaban benar."

"PLUS kita harus membuat asumsi ini bahwa kurir berperilaku seragam dan memilih masing-masing jenis botol secara acak," kataku. "Dari mana datangnya? Bagaimana jika itu salah? Kamu belum berbicara dengannya; kamu belum mewawancarainya. Namun semua pernyataanmu tentang kemungkinan posteriori bergantung pada pernyataan tentang perilakunya. Aku tidak harus membuat asumsi seperti itu, dan interval saya memenuhi kriteria bahkan dalam kasus terburuk. "

"Benar bahwa interval kredibilitas saya berkinerja buruk pada stoples tipe-B," kata Bayesia. "Tapi terus kenapa? Guci tipe B hanya terjadi 25% dari waktu. Guci ini seimbang dengan cakupan guci tipe A, C, dan D. yang bagus. Dan aku tidak pernah menerbitkan omong kosong."

"Memang benar bahwa interval kepercayaan diri saya berkinerja buruk ketika saya menggambar cookie dengan nol chip," kataku. "Tapi jadi apa? Cookie tanpa chip terjadi, paling banyak, 27% dari waktu dalam kasus terburuk (tipe-D jar). Saya mampu memberikan omong kosong untuk hasil ini karena NO jar akan menghasilkan jawaban yang salah lebih dari 30 % dari waktu. "

"Kolom itu penting," kataku.

"Baris itu penting," kata Bayesia.

"Aku bisa melihat kita menemui jalan buntu," kataku. "Kami berdua benar dalam pernyataan matematika yang kami buat, tetapi kami tidak setuju tentang cara yang tepat untuk mengukur ketidakpastian."

"Itu benar," kata saudara perempuanku. "Mau kue?"


17
Pr[θ0(θ,θ+dθ)|I]θ0θI

1
p(θ)

16
maaf untuk menghidupkan kembali posting super tua ini tetapi pertanyaan cepat, di posting Anda di bagian di mana frequentist mengkritik pendekatan Bayesian Anda mengatakan: "Bagaimana jika nilai sebenarnya adalah, katakanlah, 0,37? Jika ya, maka metode Anda, jalankan mulai untuk menyelesaikan, akan SALAH 75% dari waktu. " Bagaimana Anda mendapatkan angka-angka itu? bagaimana 0,37 sesuai dengan 75% salah? Apakah ini dari beberapa jenis kurva probabilitas? Terima kasih
BYS2

1
Ilustrasi keren! Bagaimana interval kepercayaan dan kredibilitas model chip coklat akan disesuaikan jika kami diizinkan untuk mengambil sampel n cookie dari toples? Dan dapatkah kita menilai keakuratan kedua pendekatan saat kita mengakumulasikan data pada frekuensi relatif. guci yang dikirimkan? Saya akan menebak pendekatan Bayesian akan membuat prediksi yang lebih baik setelah kami cukup yakin tentang distribusi sebelumnya (katakan setelah ~ 30 pengiriman?). Tetapi jika dbn sebelumnya tiba-tiba berubah (katakanlah seorang kurir baru yang mengambil pekerjaan) maka pendekatan Frequentist akan memiliki keuntungan.
RobertF

4
@ BYS2, ketika penulis mengatakan itu "What if the true value is, say, 0.37? If it is, then your method, run start to finish, will be WRONG 75% of the time", mereka hanya memberikan nomor contoh yang mereka buat. Dalam kasus khusus ini, mereka akan merujuk pada beberapa distribusi sebelumnya yang memiliki nilai sangat rendah di 0,37, dengan sebagian besar kepadatan probabilitasnya di tempat lain. Dan kami berasumsi bahwa contoh distribusi kami akan berkinerja sangat buruk ketika nilai sebenarnya dari parameter tersebut adalah 0,37, sama dengan bagaimana interval kredibilitas Bayesia gagal total ketika tabung itu bertipe-B.
Garrett

32

Pemahaman saya adalah sebagai berikut:

Latar Belakang

xθxθxf(x|θ)

Masalah Inferensi

θx

Interval Keyakinan

θxθθ^

x

I[lb(x),ub(x)]

P(θI)=0.95

Interval yang dibangun seperti di atas adalah apa yang disebut interval kepercayaan. Karena, nilai sebenarnya tidak diketahui tetapi tetap, nilai sebenarnya adalah dalam interval atau di luar interval. Interval kepercayaan kemudian adalah pernyataan tentang kemungkinan bahwa interval yang kita peroleh sebenarnya memiliki nilai parameter yang sebenarnya. Dengan demikian, pernyataan probabilitas adalah tentang interval (yaitu, peluang interval yang memiliki nilai benar atau tidak) daripada tentang lokasi dari nilai parameter yang benar.

Dalam paradigma ini, tidak ada artinya berbicara tentang probabilitas bahwa nilai sebenarnya kurang dari atau lebih besar dari nilai tertentu karena nilai sebenarnya bukan variabel acak.

Interval yang Dapat Dipercaya

f(θ)

f(θ|)f(θ)f(x|θ)

Kami kemudian sampai pada estimasi titik menggunakan distribusi posterior (misalnya, gunakan rata-rata distribusi posterior). Namun, karena di bawah paradigma ini, vektor parameter sebenarnya adalah variabel acak, kami juga ingin mengetahui tingkat ketidakpastian yang kami miliki dalam estimasi titik kami. Dengan demikian, kami membuat interval sedemikian rupa sehingga berlaku sebagai berikut:

P(l(θ)θub(θ))=0.95

Di atas adalah interval yang kredibel.

Ringkasan

Interval yang dapat dipercaya menangkap ketidakpastian kami saat ini di lokasi nilai parameter dan dengan demikian dapat diartikan sebagai pernyataan probabilistik tentang parameter.

Sebaliknya, interval kepercayaan menangkap ketidakpastian tentang interval yang telah kami peroleh (yaitu, apakah itu berisi nilai sebenarnya atau tidak). Dengan demikian, mereka tidak dapat diartikan sebagai pernyataan probabilistik tentang nilai parameter yang sebenarnya.


2
Interval kepercayaan 95% menurut definisi mencakup nilai parameter sebenarnya dalam 95% kasus, seperti yang Anda tunjukkan dengan benar. Dengan demikian, peluang interval Anda mencakup nilai parameter sebenarnya adalah 95%. Terkadang Anda dapat mengatakan sesuatu tentang kemungkinan parameter lebih besar atau lebih kecil daripada batas mana pun, berdasarkan asumsi yang Anda buat saat membuat interval (biasanya distribusi normal dari perkiraan Anda). Anda dapat menghitung P (theta> ub), atau P (ub <theta). Pernyataan itu tentang batas, memang, tetapi Anda bisa membuatnya.
Joris Meys

9
Joris, aku tidak setuju. Ya, untuk nilai parameter apa pun, akan ada> 95% probabilitas bahwa interval yang dihasilkan akan mencakup nilai sebenarnya. Itu tidak berarti bahwa setelah mengambil pengamatan tertentu dan menghitung interval, masih ada probabilitas kondisional 95% mengingat data bahwa interval ITU mencakup nilai sebenarnya. Seperti yang saya katakan di bawah ini, secara formal akan sangat dapat diterima untuk interval kepercayaan untuk meludahkan [0, 1] 95% dari waktu dan yang kosong mengatur 5% lainnya. Kesempatan Anda mendapatkan set kosong sebagai interval, tidak ada kemungkinan 95% nilai sebenarnya ada di dalam!
Keith Winstein

@ Keith: Saya mengerti maksud Anda, meskipun set kosong bukanlah interval menurut definisi. Probabilitas interval kepercayaan juga tidak tergantung pada data, sebaliknya. Setiap interval kepercayaan berasal dari sampel acak yang berbeda, sehingga kemungkinan sampel Anda diambil sedemikian rupa sehingga 95% CI yang menjadi dasarnya tidak mencakup nilai parameter sebenarnya, hanya 5%, terlepas dari data.
Joris Meys

1
Joris, saya menggunakan "data" sebagai sinonim untuk "sampel," jadi saya pikir kami setuju. Maksud saya adalah bahwa hal itu mungkin terjadi dalam situasi, setelah Anda mengambil sampel, di mana Anda dapat membuktikan dengan pasti bahwa interval Anda salah - bahwa itu tidak mencakup nilai sebenarnya. Ini tidak berarti bahwa itu bukan interval kepercayaan 95% yang valid. Jadi Anda tidak bisa mengatakan bahwa parameter kepercayaan diri (95%) memberi tahu Anda apa pun tentang kemungkinan cakupan interval tertentu setelah Anda melakukan percobaan dan mendapatkan intervalnya. Hanya probabilitas posteriori, yang diinformasikan oleh prior, yang dapat berbicara tentang itu.
Keith Winstein

4
θ θθ θ θf(θ)Pr(θ is in the interval (θ,θ+dθ)|I)=f(θ)dθX

13

Saya tidak setuju dengan jawaban Srikant pada satu hal mendasar. Srikant menyatakan ini:

"Masalah Inferensi: Masalah inferensi Anda adalah: Nilai θ apa yang masuk akal mengingat data yang diamati x?"

Sebenarnya ini adalah MASALAH INFERENSI BAYESIAN. Dalam statistik Bayesian kami berusaha untuk menghitung P (θ | x) yaitu probabilitas nilai parameter yang diberikan data yang diamati (sampel). CREDIBLE INTERVAL adalah interval θ yang memiliki kemungkinan 95% (atau lainnya) untuk mengandung nilai sebenarnya dari θ mengingat beberapa asumsi yang mendasari masalah.

MASALAH INFERENSI FREQUENTIST adalah ini:

Apakah data yang diamati x masuk akal mengingat nilai hipotesis values?

Dalam statistik frequentist kami berusaha untuk menghitung P (x | θ) yaitu probabilitas mengamati data (sampel) diberi nilai parameter yang dihipotesiskan. INTERVAL PERCAYA DIRI (mungkin salah nama) ditafsirkan sebagai: jika percobaan yang menghasilkan sampel acak x diulang berkali-kali, 95% (atau lainnya) dari interval tersebut dibangun dari sampel acak akan berisi nilai sebenarnya dari parameter.

Berantakan dengan kepala Anda? Itulah masalah dengan statistik frequentist dan hal utama statistik Bayesian terjadi untuk itu.

Seperti yang ditunjukkan oleh Sikrant, P (θ | x) dan P (x | θ) terkait sebagai berikut:

P (θ | x) = P (θ) P (x | θ)

Di mana P (θ) adalah probabilitas kami sebelumnya; P (x | θ) adalah probabilitas data bersyarat pada yang sebelumnya dan P (θ | x) adalah probabilitas posterior. P (θ) sebelumnya secara inheren bersifat subyektif, tetapi itu adalah harga pengetahuan tentang Semesta - dalam arti yang sangat mendalam.

Bagian lain dari jawaban Sikrant dan Keith sangat bagus.


Secara teknis, Anda benar tetapi perlu dicatat bahwa interval kepercayaan memberikan set nilai parameter yang hipotesis nolnya benar. Jadi, "apakah data yang diamati x masuk akal mengingat hipotesis kami tentang theta?" dapat dirumuskan kembali sebagai "Nilai sebenarnya apa dari theta akan menjadi hipotesis yang kompatibel mengingat data yang diamati x?" Perhatikan bahwa pertanyaan yang diutarakan ulang tidak selalu menyiratkan bahwa theta dianggap sebagai variabel acak. Pertanyaan yang diutarakan ulang mengeksploitasi fakta bahwa kami melakukan tes hipotesis nol dengan memeriksa apakah nilai yang dihipotesiskan jatuh dalam interval kepercayaan.

@svadali - interval kepercayaan mengevaluasi data untuk hipotesis tetap. Jadi ketika mengubah bagian "tetap" dari persamaan, jika Anda gagal memperhitungkan probabilitas hipotesis sebelum mengamati data Anda, maka Anda pasti akan menemukan inkonsistensi dan hasil yang tidak koheren. Probabilitas kondisional tidak "dibatasi" ketika mengubah kondisi (misalnya dengan mengubah kondisi Anda dapat mengubah probabilitas kondisional dari 0 ke 1). Probabilitas sebelumnya memperhitungkan kesewenang-wenangan ini. Pengkondisian pada X dilakukan karena kami yakin X telah terjadi - kami memang mengamati X!
probabilityislogic

13

Jawaban yang diberikan sebelumnya sangat membantu dan terperinci. Ini adalah $ 0,25 saya.

Interval kepercayaan (CI) adalah konsep yang didasarkan pada definisi klasik probabilitas (juga disebut "definisi Frequentist") bahwa probabilitas seperti proporsi dan didasarkan pada sistem aksiomatik Kolmogrov (dan lain-lain).

Interval yang dapat dipercaya (Kepadatan Posterior Tertinggi, HPD) dapat dianggap berakar pada teori keputusan, berdasarkan pada karya Wald dan de Finetti (dan banyak dikembangkan oleh orang lain).

Karena orang-orang di utas ini telah melakukan pekerjaan luar biasa dalam memberikan contoh dan perbedaan hipotesis dalam kasus Bayesian dan frequentist, saya hanya akan menekankan pada beberapa poin penting.

  1. CI didasarkan pada fakta bahwa inferensi HARUS dibuat pada semua pengulangan yang mungkin dari percobaan yang dapat dilihat dan BUKAN hanya pada data yang diamati di mana HPD didasarkan SEPENUHNYA pada data yang diamati (dan melihat asumsi sebelumnya kami).

  2. θ

  3. Karena CI tidak mengkondisikan pada data yang diamati (juga disebut "Conditionality Principle" CP), mungkin ada contoh paradoks. Fisher adalah pendukung besar CP dan juga menemukan banyak contoh paradoks ketika ini TIDAK diikuti (seperti dalam kasus CI). Ini adalah alasan mengapa ia menggunakan nilai-p untuk inferensi, yang bertentangan dengan CI. Dalam pandangannya nilai-p didasarkan pada data yang diamati (banyak yang bisa dikatakan tentang nilai-p, tetapi itu bukan fokus di sini). Dua contoh paradoks yang sangat terkenal adalah: (4 dan 5)

  4. XiN(μ,σ2)i{1,,n}μn0.5σ2+0.0005σ2n=10000.001σ20.5σ2+0.0005σ20.001σ2n=1000nμσnn

  5. nn=2X1,X2U(θ1/2,θ+1/2)θX1-θU(-1/2,1/2)12(X1+X2)x¯-θθc>0Masalahθ(-c<=x¯-θ<=c)=1-α(99%)(x¯-c,x¯+c)θx¯θθX1=0X2=1|X1-X2|=1(X1,X2)θProb(|X1X2|=1)=0|X1X2||X1X2||X1X2|

  6. X2X1X2X1θX2X1θX2X1θInferensi Fiducial (juga disebut kegagalan terbesarnya, lih. Zabell, Stat. Sci. 1992), tetapi itu tidak menjadi populer karena kurangnya generalisasi dan fleksibilitas. Fisher berusaha menemukan cara yang berbeda dari statistik klasik (Sekolah Neyman) dan sekolah bayesian (maka pepatah terkenal dari Savage: "Fisher ingin membuat telur dadar Bayesian (yaitu menggunakan CP) tanpa memecahkan telur Bayesian") . Cerita Rakyat (tidak ada bukti) mengatakan: Fisher dalam debatnya menyerang Neyman (untuk Tipe I dan Tipe II kesalahan dan CI) dengan memanggilnya seorang pria Pengendalian Kualitas daripada seorang Ilmuwan , karena metode Neyman tidak mengkondisikan pada data yang diamati, sebaliknya tampak di semua kemungkinan pengulangan.

  7. Ahli statistik juga ingin menggunakan Prinsip Kecukupan (SP) selain CP. Tetapi SP dan CP bersama-sama menyiratkan Prinsip Kemungkinan (LP) (cf Birnbaum, JASA, 1962) yaitu diberikan CP dan SP, orang harus mengabaikan ruang sampel dan melihat fungsi kemungkinan saja. Jadi, kita hanya perlu melihat data yang diberikan dan BUKAN pada seluruh ruang sampel (melihat seluruh ruang sampel dengan cara yang mirip dengan pengambilan sampel berulang). Ini telah mengarah pada konsep seperti Observed Fisher Information (lih. Efron dan Hinkley, AS, 1978) yang mengukur informasi tentang data dari perspektif frequentist. Jumlah informasi dalam data adalah konsep bayesian (dan karenanya terkait dengan HPD), bukan CI.

  8. Kiefer melakukan beberapa pekerjaan dasar pada CI pada akhir 1970-an, tetapi ekstensi-nya belum menjadi populer. Sumber referensi yang baik adalah Berger ("Bisakah Fisher, Neyman dan Jeffreys setuju tentang pengujian hipotesis", Stat Sci, 2003).


Ringkasan:

(Seperti yang ditunjukkan oleh Srikant dan yang lainnya)
CI tidak dapat diartikan sebagai probabilitas dan mereka tidak memberi tahu apa-apa tentang parameter yang tidak diketahui. CI adalah pernyataan tentang percobaan berulang.

HPD adalah interval probabilistik berdasarkan distribusi posterior dari parameter yang tidak diketahui dan memiliki interpretasi berbasis probabilitas berdasarkan data yang diberikan.

Properti Frequentist (sampling berulang) properti adalah properti yang diinginkan dan HPD (dengan prior yang sesuai) dan CI keduanya memilikinya. Kondisi HPD pada data yang diberikan juga dalam menjawab pertanyaan tentang parameter yang tidak diketahui

(Objektif BUKAN subyektif) Bayesians setuju dengan ahli statistik klasik bahwa ada nilai TRUE tunggal dari parameter. Namun, keduanya berbeda dalam cara mereka membuat kesimpulan tentang parameter yang benar ini.

HPD Bayesian memberi kita cara yang baik untuk mengkondisikan data, tetapi jika mereka gagal untuk setuju dengan sifat frequentist CI, mereka tidak terlalu berguna (analogi: seseorang yang menggunakan HPD (dengan beberapa sebelumnya) tanpa properti frequentist yang baik, terikat akan ditakdirkan seperti tukang kayu yang hanya peduli tentang palu dan melupakan obeng)

Akhirnya, saya telah melihat orang-orang di utas ini (komentar oleh Dr. Joris: "... asumsi yang terlibat menyiratkan difus sebelumnya, yaitu kurangnya pengetahuan tentang parameter yang benar.") Berbicara tentang kurangnya pengetahuan tentang parameter yang benar setara dengan menggunakan difus sebelumnya. Saya TIDAK tahu apakah saya bisa setuju dengan pernyataan itu (Dr. Keith setuju dengan saya). Sebagai contoh, dalam kasus model linier dasar, beberapa distribusi dapat diperoleh dengan menggunakan seragam sebelumnya (yang beberapa orang menyebutnya difus), TETAPI itu TIDAK berarti bahwa distribusi seragam dapat dianggap sebagai PRIOR INFORMASI RENDAH. Secara umum, NON-INFORMATIVE (Objective) sebelumnya tidak berarti memiliki informasi yang rendah tentang parameter.



catatan:Banyak dari poin-poin ini didasarkan pada ceramah oleh salah satu bayesian terkemuka. Saya masih seorang mahasiswa dan bisa saja salah paham dengannya. Saya minta maaf sebelumnya.


"the frequentist IS BOUND kalah" Melihat jawaban yang paling banyak dipilih, saya akan menganggap ini tergantung pada fungsi utilitas (mis. tidak jika penyesalan optimasi sedang berlangsung). Secara intuitif, itu mungkin juga tergantung pada kemampuan untuk menentukan fungsi sebelumnya ...
Abel Molina

4
"frequentist IS BOUND kalah" ... * bersyarat untuk memiliki prior * yang sesuai (yang, pada umumnya, tidak begitu mudah) Contoh sempurna: pecandu judi adalah 99% yakin keberuntungan mereka akan berubah saat ini. Mereka yang memasukkan ini sebelum analisis keputusan mereka cenderung tidak melakukannya dengan baik dalam jangka panjang.
Cliff AB

1
Saya tidak berpikir Anda harus menyingkat interval kepercayaan sebagai CI dalam jawaban tentang perbedaan antara interval yang kredibel dan interval kepercayaan.
Hugh

10

Selalu menyenangkan untuk terlibat dalam sedikit filosofi. Saya sangat menyukai tanggapan Keith, namun saya akan mengatakan bahwa ia mengambil posisi "Tuan pelupa Bayesia". Cakupan buruk ketika tipe B dan tipe C hanya dapat terjadi jika dia menerapkan distribusi probabilitas yang sama di setiap percobaan, dan menolak untuk memperbarui sebelumnya.

Anda dapat melihat ini dengan cukup jelas, untuk tipe A dan tipe D guci membuat "prediksi pasti" sehingga untuk berbicara (untuk masing-masing 0-1 dan 2-3 chip), sedangkan guci tipe B dan C pada dasarnya memberikan distribusi chip yang seragam. Jadi, pada pengulangan percobaan dengan beberapa "toples benar" tetap (atau jika kami mencicipi biskuit lain), distribusi chip yang seragam akan memberikan bukti untuk tipe B atau C toples.

KL(B||C)0.006KL(C||B)12×0.006=0.11

Sekarang apa yang terjadi pada interval yang kredibel itu? Kami sebenarnya sekarang memiliki cakupan 100% "B atau C"! Bagaimana dengan interval frequentist? Cakupan tidak berubah karena semua interval mengandung B dan C atau tidak sama sekali, sehingga masih tunduk pada kritik dalam tanggapan Keith - 59% dan 0% untuk chip 3 dan 0 diamati.

(0+99+99+59+99)/5=71.2(98+60+66+97)/4=80.3

Poin lain yang ingin saya tekankan adalah bahwa Bayesian tidak mengatakan bahwa "parameternya acak" dengan menetapkan distribusi probabilitas. Untuk Bayesian (well, setidaknya bagi saya bagaimanapun) distribusi probabilitas adalah deskripsi dari apa yang diketahui tentang parameter itu. Gagasan "keacakan" tidak benar-benar ada dalam teori Bayesian, hanya gagasan "mengetahui" dan "tidak tahu". "Yang dikenal" masuk ke dalam kondisi, dan "yang tidak diketahui" adalah apa yang kita hitung probabilitasnya, jika menarik, dan dipinggirkan jika diganggu. Jadi interval yang kredibel menggambarkan apa yang diketahui tentang parameter tetap, rata-rata atas apa yang tidak diketahui tentang itu. Jadi jika kita mengambil posisi orang yang mengemas toples kue dan tahu itu adalah tipe A, interval kredibilitas mereka hanya akan menjadi [A], terlepas dari sampel, dan tidak peduli berapa banyak sampel yang diambil. Dan mereka akan 100% akurat!

Interval kepercayaan didasarkan pada "keacakan" atau variasi yang ada dalam sampel yang berbeda. Dengan demikian satu-satunya variasi yang mereka perhitungkan adalah dalam sampel. Jadi interval kepercayaannya tidak berubah untuk orang yang mengemas toples kue dan yang baru jenisnya A. Jadi, jika Anda mengeluarkan biskuit dengan 1 keping di luar toples tipe A, orang yang sering bertanya dengan keyakinan 70% bahwa jenis itu adalah bukan A, meskipun mereka tahu toples itu tipe A! (jika mereka mempertahankan ideologi mereka dan mengabaikan akal sehat mereka). Untuk melihat bahwa ini masalahnya, perhatikan bahwa tidak ada dalam situasi ini yang mengubah distribusi sampling - kami hanya mengambil perspektif orang yang berbeda dengan informasi berbasis "non-data" tentang parameter.

Interval kepercayaan hanya akan berubah ketika data berubah atau distribusi model / pengambilan sampel berubah. interval kredibilitas dapat berubah jika informasi relevan lainnya dipertimbangkan.

Perhatikan bahwa perilaku gila ini tentu bukan apa yang sebenarnya dilakukan oleh pendukung interval kepercayaan; tetapi itu menunjukkan kelemahan dalam filosofi yang mendasari metode ini dalam kasus tertentu. Interval kepercayaan bekerja paling baik ketika Anda tidak tahu banyak tentang parameter di luar informasi yang terkandung dalam kumpulan data. Dan selanjutnya, interval kredibilitas tidak akan dapat meningkatkan banyak pada interval kepercayaan kecuali jika ada informasi sebelumnya yang interval kepercayaan tidak dapat diperhitungkan, atau menemukan statistik yang cukup dan tambahan sulit.


mmmm

m

Ya, dalam batas. Kemudian untuk satu atau hanya beberapa sampel, CI tidak berarti apa-apa, bukan? Lalu apa gunanya menghitung CI, jika saya tidak punya banyak sampel?
alpukat

3
@loganecolss - itulah mengapa saya seorang Bayesian.
probabilityislogic

2
@nazka - semacam. Saya akan mengatakan itu selalu terbaik untuk menggunakan pendekatan Bayesian terlepas dari berapa banyak data yang Anda miliki. Jika ini dapat didekati dengan baik oleh prosedur yang sering, gunakan itu. Bayesian bukan sinonim untuk lambat.
probabilityislogic

6

Seperti yang saya pahami: Interval kredibel adalah pernyataan kisaran nilai untuk statistik minat yang tetap masuk akal mengingat sampel data tertentu yang telah kami amati. Interval kepercayaan adalah pernyataan frekuensi di mana nilai sebenarnya terletak pada interval kepercayaan ketika percobaan diulangi dalam jumlah besar, setiap kali dengan sampel data yang berbeda dari populasi dasar yang sama.

Biasanya pertanyaan yang ingin kami jawab adalah "nilai statistik apa yang konsisten dengan data yang diamati", dan interval kredibel memberikan jawaban langsung untuk pertanyaan itu - nilai sebenarnya dari statistik terletak pada interval kredibel 95% dengan probabilitas 95 %. Interval kepercayaan tidak memberikan jawaban langsung untuk pertanyaan ini; tidaklah benar untuk menyatakan bahwa probabilitas bahwa nilai sebenarnya dari statistik terletak dalam interval kepercayaan 95% adalah 95% (kecuali jika kebetulan itu bertepatan dengan interval yang kredibel). Namun ini adalah salah interpretasi yang sangat umum dari interval kepercayaan yang sering terjadi karena interpretasi yang akan menjadi jawaban langsung untuk pertanyaan tersebut.

Makalah karya Jayne yang saya diskusikan dalam pertanyaan lain memberikan contoh yang baik tentang hal ini (contoh # 5), adalah interval kepercayaan yang benar-benar dibangun, di mana sampel data tertentu yang menjadi basisnya mengesampingkan segala kemungkinan nilai sebenarnya. statistik berada dalam interval kepercayaan 95%! Ini hanya masalah jika interval kepercayaan ditafsirkan secara keliru sebagai pernyataan nilai-nilai statistik yang masuk akal berdasarkan sampel tertentu yang telah kami amati.

Pada akhirnya, itu adalah masalah "kuda untuk kursus", dan interval mana yang terbaik tergantung pada pertanyaan yang ingin Anda jawab - cukup pilih metode yang langsung menjawab pertanyaan itu.

Saya menduga interval kepercayaan lebih berguna ketika menganalisis eksperimen berulang (desgined) (karena itu hanya asumsi yang mendasari interval kepercayaan), dan interval kredibel lebih baik ketika menganalisis data pengamatan, tapi itu hanya pendapat (saya menggunakan kedua jenis interval dalam pekerjaan saya sendiri, tetapi tidak akan menggambarkan diri saya sebagai ahli dalam keduanya).


6
Masalah dengan interval kepercayaan dalam percobaan berulang, adalah bahwa agar mereka berfungsi, kondisi percobaan berulang harus tetap sama (dan siapa yang akan percaya itu?), Sedangkan interval Bayesian (jika digunakan dengan benar) kondisi pada data diamati, dan dengan demikian memberikan kelonggaran untuk perubahan yang terjadi di dunia nyata (melalui data). Saya pikir itu adalah aturan pengkondisian statistik Bayesian yang membuatnya sangat sulit untuk mengungguli (saya pikir itu tidak mungkin: hanya kesetaraan yang dapat dicapai), dan mesin otomatis yang mencapai ini yang membuatnya tampak sangat apik.
probabilityislogic

3

P(θCI)

Jadi ya Anda dapat mengatakan 'Jika Anda mengulangi percobaan berkali-kali, sekitar 95% dari 95% CI akan mencakup parameter sebenarnya'. Meskipun dalam Bayesian Anda dapat mengatakan 'nilai sebenarnya dari statistik terletak pada interval kredibel 95% dengan probabilitas 95%', namun, probabilitas 95% ini (dalam Bayesian) sendiri hanya merupakan perkiraan. (Ingat itu didasarkan pada distribusi kondisi yang diberikan data spesifik ini, bukan distribusi sampling). Pengukur ini harus datang dengan kesalahan acak karena sampel acak.

Bayesian mencoba menghindari masalah kesalahan tipe I. Bayesian selalu mengatakan itu tidak masuk akal untuk berbicara tentang kesalahan tipe I dalam Bayesian. Ini tidak sepenuhnya benar. Ahli statistik selalu ingin mengukur kemungkinan atau kesalahan bahwa 'Data Anda menyarankan Anda untuk membuat keputusan tetapi populasi menyarankan sebaliknya'. Ini adalah sesuatu yang Bayesian tidak bisa menjawab (rincian dihilangkan di sini). Sayangnya, ini mungkin hal terpenting yang harus dijawab oleh ahli statistik. Ahli statistik tidak hanya menyarankan keputusan. Para ahli statistik juga harus dapat mengatasi seberapa besar keputusan itu bisa salah.

Saya harus membuat tabel dan ketentuan berikut untuk menjelaskan konsep tersebut. Semoga ini bisa membantu menjelaskan perbedaan Confidence Interval dan Credible Set.

P(θ0|Datan)θ0P(θ0)P(Datan;θ)θ^P(θ^n;θ)nP(Datan|θ)P(Datan;θ)P(θ^n;θ)P(θ0|Datan)

Interval Keyakinan vs Kredibel Set

'???????' menjelaskan mengapa kita tidak dapat mengevaluasi kesalahan tipe I (atau yang serupa) di Bayesian.

Harap perhatikan juga bahwa set yang kredibel dapat digunakan untuk memperkirakan interval kepercayaan dalam beberapa keadaan. Namun ini hanya perkiraan matematis. Penafsirannya harus sesuai dengan sering. Penafsiran Bayesian dalam kasus ini tidak berfungsi lagi.


P(x|θ)

Saya setuju dengan kesimpulan yang dibuat oleh Dikran Marsupial . Jika Anda peninjau FDA, Anda selalu ingin tahu kemungkinan bahwa Anda menyetujui aplikasi obat tetapi obat tersebut sebenarnya tidak manjur. Ini adalah jawaban yang Bayesian tidak bisa berikan, setidaknya dalam Bayesian klasik / khas.


3

Keyakinan umum dan konsisten serta wilayah yang kredibel. http://dx.doi.org/10.6084/m9.figshare.1528163 dengan kode di http://dx.doi.org/10.6084/m9.figshare.1528187

Memberikan deskripsi interval kredibel dan interval kepercayaan untuk menetapkan pilihan bersama dengan kode R generik untuk menghitung keduanya mengingat fungsi kemungkinan dan beberapa data yang diamati. Lebih lanjut ia mengusulkan statistik uji yang memberikan interval kredibel dan kepercayaan ukuran optimal yang konsisten satu sama lain.

Singkatnya dan menghindari formula. Interval kredibel Bayesian didasarkan pada probabilitas parameter yang diberikan data . Ini mengumpulkan parameter yang memiliki probabilitas tinggi ke dalam set / interval yang kredibel. Interval kredibel 95% berisi parameter yang bersama-sama memiliki probabilitas 0,95 diberikan data.

Interval kepercayaan frequentist didasarkan pada probabilitas data yang diberikan beberapa parameter . Untuk setiap parameter (mungkin banyak sekali), pertama-tama menghasilkan himpunan data yang cenderung diamati dengan parameter tersebut. Kemudian memeriksa setiap parameter, apakah data probabilitas tinggi yang dipilih berisi data yang diamati. Jika data probabilitas tinggi berisi data yang diamati, parameter yang sesuai ditambahkan ke interval kepercayaan. Dengan demikian, interval kepercayaan adalah kumpulan parameter yang kita tidak bisa mengesampingkan kemungkinan bahwa parameter telah menghasilkan data. Ini memberikan aturan sehingga, jika diterapkan berulang kali untuk masalah yang sama, interval kepercayaan 95% akan berisi nilai parameter sebenarnya dalam 95% kasus.

95% set yang kredibel dan 95% keyakinan ditetapkan sebagai contoh dari distribusi binomial negatif 95% Credible set dan 95% Confidence set untuk distribusi binomial negatif


Deskripsi interval kepercayaan tidak benar. "95%" berasal dari probabilitas bahwa sampel dari populasi akan menghasilkan interval yang berisi nilai sebenarnya dari parameter.
jlimahaverford

@ jlimahaverford - Deskripsi sudah benar seperti milik Anda. Untuk membuat tautan ke apa yang Anda gambarkan, saya menambahkan "Ini memberikan aturan sehingga, jika diterapkan berulang kali untuk masalah yang sama, interval kredibel 95% akan berisi nilai parameter sebenarnya dalam 95% kasus."
user36160

1
Saya tidak berbicara tentang deskripsi Anda tentang interval yang kredibel. Saya berbicara tentang interval kepercayaan. Saya sekarang memperhatikan bahwa di tengah paragraf Anda tentang interval kepercayaan Anda mulai berbicara tentang kredibilitas lagi, dan saya pikir ini adalah kesalahan. Gagasan penting adalah ini "Jika ini adalah nilai sebenarnya dari parameter, berapakah probabilitas bahwa saya akan mengambil sampel sebanyak ini atau lebih. Jika jawabannya lebih besar dari 5%, ia berada dalam interval kepercayaan."
jlimahaverford

@ jlimahaverford - setuju dan diperbaiki - Terima kasih.
user36160

hmm, saya tidak melihatnya diperbaiki.
jlimahaverford

1

Ini lebih dari komentar tetapi terlalu lama. Dalam makalah berikut: http://www.stat.uchicago.edu/~lekheng/courses/191f09/mumford-AMS.pdf Mumford memiliki komentar menarik berikut:

Sementara semua penggunaan yang sangat menarik ini dibuat dari statistik, sebagian besar ahli statistik itu sendiri, dipimpin oleh Sir RA Fisher, mengikat tangan mereka di belakang mereka, bersikeras bahwa statistik tidak dapat digunakan dalam situasi yang benar-benar dapat direproduksi dan kemudian hanya menggunakan data empiris. Inilah yang disebut sekolah 'kerap' yang berkelahi dengan sekolah Bayesian yang percaya bahwa prior dapat digunakan dan penggunaan inferensi statistik sangat diperluas. Pendekatan ini menyangkal bahwa kesimpulan statistik dapat ada hubungannya dengan pemikiran nyata karena situasi kehidupan nyata selalu terkubur dalam variabel kontekstual dan tidak dapat diulang. Untungnya, sekolah Bayesian tidak sepenuhnya mati, diteruskan oleh DeFinetti, ET Jaynes, dan lainnya.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.