Pendekatan yang lebih lembut terhadap statistik Bayesian

Saya baru-baru ini mulai membaca "Pengantar Statistik Bayesian" Edisi ke-2 oleh Bolstad. Saya memiliki kelas statistik pengantar yang mencakup sebagian besar tes statistik dan saya hampir melalui kelas dalam analisis regresi. Buku apa lagi yang bisa saya gunakan untuk menambah pemahaman saya tentang buku ini?

Saya telah berhasil melewati 100-125 halaman pertama dengan baik. Setelah itu buku itu mulai berbicara tentang pengujian hipotesis yang merupakan hal yang sangat menarik untuk saya bahas tetapi ada beberapa hal yang membuat saya:

Penggunaan fungsi kepadatan probabilitas dalam perhitungan. Dengan kata lain cara mengevaluasi persamaan tersebut.
Seluruh kalimat ini: "Misalkan kita menggunakan beta (1,1) sebelum pi. Kemudian diberikan y = 8, kepadatan posterior adalah beta (9,3). Probabilitas posterior dari hipotesis nol adalah ..." Saya percaya beta (1,1) mengacu pada PDF di mana rata-rata adalah 1 dan stdev adalah 1? Saya tidak mengerti bagaimana itu akan berubah menjadi beta (9,3) sebagai fungsi kepadatan posterior.

Saya mendapatkan konsep priors vs posteriors dan mengerti bagaimana menerapkannya menggunakan tabel secara manual. Saya mendapatkan (saya pikir!) Bahwa pi mewakili proporsi atau probabilitas populasi yang seharusnya.

Saya tidak mendapatkan cara menghubungkan ini bersama dengan data yang akan saya temukan setiap hari dan mendapatkan hasil.

hypothesis-testing bayesian

— Justin Bozonier
sumber

Parameter

π

$\pi$ muncul dari konteks sebagai probabilitas populasi dari model binomial. Dalam kasus ini, distribusi beta adalah konjugat sebelumnya untuk kemungkinan binomial dengan

n

$n$ diketahui dan tidak diketahui

π

$\pi$ . Namun, parameter distribusi beta bukanlah mean dan standar deviasi, seperti halnya untuk distribusi normal. Lihatlah halaman Wikipedia untuk melihat rumus rata-rata dan varians dari variabel beta acak dalam hal parameter distribusi beta.

— caburke

Terima kasih! Konjugasi sebelumnya adalah istilah lain yang tidak saya kenal. Di mana saya bisa belajar lebih banyak tentang itu di tingkat pengantar?

— Justin Bozonier

Anda mungkin tertarik pada teks yang lebih praktis, pernahkah Anda melihat Metode Bayesian untuk Peretas? (Pengungkapan - Saya adalah penulis yang berkontribusi) Cobalah mencarinya (ini adalah opensource dan gratis).

— Cam.Davidson.Pilon

@JustinBozonier Tautan ini stats.stackexchange.com/questions/66018/… memberikan beberapa penjelasan untuk istilah berbeda yang digunakan orang untuk mendeskripsikan prior, termasuk konjugat priors.

— Sycorax berkata Reinstate Monica

@ Cam.Davidson.Pilon Terima kasih untuk itu! Pembaruan keyakinan pada bagan di halaman ini saja membantu saya mendapatkan lebih banyak dari apa yang orang lain katakan: nbviewer.ipython.org/urls/raw.github.com/CamDavidsonPilon/…

— Justin Bozonier

Jawaban:

Penggunaan fungsi kepadatan probabilitas dalam perhitungan. Dengan kata lain cara mengevaluasi persamaan tersebut.

Saya pikir Anda masih memikirkan hal ini dari perspektif yang sering: jika Anda mencari perkiraan titik, posterior tidak akan memberikannya kepada Anda. Anda memasukkan PDF, Anda mendapatkan PDF. Anda dapat memperoleh estimasi titik dengan menghitung statistik dari distribusi posterior Anda, tetapi saya akan membahasnya sedikit.

Saya mendapatkan konsep priors vs posteriors dan mengerti bagaimana menerapkannya menggunakan tabel secara manual. Saya mendapatkan (saya pikir!) Bahwa pi mewakili proporsi atau probabilitas populasi yang seharusnya.

sama dengan : keduanya PDF. hanya digunakan secara konvensional untuk menyatakan bahwa PDF tertentu adalah kepadatan sebelumnya. $\pi(x)$ $p(x)$ $\pi$

Saya curiga Anda tidak mendapatkan prior dan posteriors seperti yang Anda kira Anda lakukan, jadi mari kita kembali ke dasar fundamental statistik Bayesian: Probabilitas Subyektif .

Eksperimen Pikiran dalam Probabilitas Subjektif

Katakanlah saya memberi Anda sebuah koin dan bertanya apakah menurut Anda koin ini adil atau tidak. Anda telah mendengar banyak orang berbicara tentang koin tidak adil di kelas probabilitas, tetapi Anda belum pernah benar-benar melihatnya di kehidupan nyata, jadi Anda menjawab, "Ya, tentu saja, saya pikir itu koin yang adil." Tetapi, fakta bahwa saya bahkan menanyakan pertanyaan ini membuat Anda sedikit kecewa, jadi meskipun perkiraan Anda adalah adil, Anda tidak akan benar-benar terkejut jika tidak. Jauh lebih terkejut daripada jika Anda menemukan koin ini dalam uang receh (karena Anda menganggap itu semua mata uang nyata, dan Anda tidak benar-benar mempercayai saya sekarang karena saya bertindak mencurigakan).

Sekarang, kami menjalankan beberapa percobaan. Setelah 100 membalik, koin mengembalikan 53 Kepala. Anda jauh lebih percaya diri bahwa itu adalah koin yang adil, tetapi Anda masih terbuka terhadap kemungkinan bahwa itu bukan koin. Perbedaannya adalah bahwa sekarang Anda akan cukup terkejut jika koin ini ternyata memiliki semacam bias.

Bagaimana kami bisa mewakili kepercayaan Anda sebelumnya dan posterior di sini, khususnya, mengenai probabilitas bahwa koin akan menunjukkan kepala (yang akan kami nyatakan )? Dalam situasi yang sering terjadi, keyakinan Anda sebelumnya - hipotesis nol Anda - adalah bahwa . Setelah menjalankan percobaan, Anda tidak dapat menolak nol, sehingga Anda melanjutkan dengan asumsi bahwa ya, koin itu mungkin adil. Tetapi bagaimana kami merangkum perubahan dalam keyakinan Anda bahwa koin itu adil? Setelah percobaan Anda berada dalam posisi yang Anda bertaruh bahwa koin itu adil, tetapi sebelum percobaan Anda akan menjadi berani. $\theta$ $\theta = 0.5$

$\theta = 0.5$ $\theta \sim N(0.5, \sigma^2)$ $\theta= 0.5$ $\theta=0.5$ $\theta=0.5$

Jadi bagaimana kita melakukan perhitungan?

Kita mulai dengan PDF, dan kita akhiri dengan PDF. Ketika Anda perlu melaporkan estimasi titik, Anda dapat menghitung statistik seperti rata-rata, median atau mode distribusi posterior Anda (tergantung pada fungsi kerugian Anda, yang tidak akan saya bahas sekarang. Mari kita pertahankan dengan rata-rata). Jika Anda memiliki solusi formulir tertutup untuk PDF Anda, mungkin sepele untuk menentukan nilai-nilai ini. Jika posterior rumit, Anda dapat menggunakan prosedur seperti MCMC untuk mengambil sampel dari posterior Anda dan memperoleh statistik dari sampel yang Anda gambar.

Pada contoh di mana Anda memiliki Beta sebelum dan kemungkinan Binomial, perhitungan posterior dikurangi menjadi perhitungan yang sangat bersih. Diberikan:

$\theta \sim Beta(\alpha, \beta)$
$X|\theta \sim Binomial(\theta)$

Kemudian posterior berkurang menjadi:

$\theta|X \sim Beta(\alpha + \sum_{i=1}^n x_i,\, \beta + n - \sum_{i=1}^n x_i)$

Ini akan terjadi kapan saja Anda memiliki beta sebelum dan kemungkinan binomial, dan alasan mengapa harus jelas dalam perhitungan yang disediakan oleh DJE . Ketika model prior-likelihood tertentu selalu memberikan posterior yang memiliki jenis distribusi yang sama seperti sebelumnya, hubungan antara jenis distribusi yang digunakan untuk prior dan likelihood disebut Conjugate . Ada banyak pasangan distribusi yang memiliki hubungan konjugat, dan konjugasi sangat sering dimanfaatkan oleh Bayesian untuk menyederhanakan perhitungan. Dengan kemungkinan tertentu, Anda dapat membuat hidup Anda jauh lebih mudah dengan memilih konjugat sebelumnya (jika ada dan Anda dapat membenarkan pilihan Anda sebelumnya).

Saya percaya beta (1,1) mengacu pada PDF di mana rata-rata adalah 1 dan stdev adalah 1?

Dalam parameterisasi umum dari distribusi normal, dua parameter menandakan mean dan standar deviasi dari distribusi. Tapi itu hanya bagaimana kita mengukur distribusi normal. Distribusi probabilitas lainnya memiliki parameter yang sangat berbeda.

$Beta(\alpha, \beta)$ $\alpha$ $\beta$

\begin{aligned} X & \sim B e t Sebuah (α, β) \\ E [X] & = \frac{α}{α + β} \\ var [X] & = \frac{α β}{(α + β)^{2} (α + β + 1)} \end{aligned}

$\begin{equation} \begin{split} X &\sim Beta(\alpha, \beta) \\ \operatorname{E}[X] &= \frac{\alpha}{\alpha + \beta} \\ \operatorname{var}[X] &= \frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)} \end{split} \end{equation}$

Seperti yang dapat Anda lihat dengan jelas, mean dan varians bukan bagian dari parameterisasi distribusi ini, tetapi mereka memiliki solusi bentuk tertutup yang merupakan fungsi sederhana dari parameter input.

$Beta(1,1)$ $Uniform(0,1)$

— David Marx
sumber

Hal utama yang jawaban Anda berikan kepada saya adalah kesadaran bahwa mencari nilai tunggal adalah ketika saya digantung. Suatu kali saya mulai berpikir dalam hal distribusi teks Kruschke dan yang lainnya mulai lebih masuk akal. Terima kasih!

— Justin Bozonier

$p(\theta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}$ $(\alpha, \beta)=(1,1)$

Beta sebelum dengan kemungkinan binomial (jumlah percobaan tetap dengan hasil biner dan probabilitas tetap dari keberhasilan / kegagalan) memiliki sifat konjugasi, yang memungkinkan posterior (produk dari sebelumnya dan kemungkinan) ditulis dalam bentuk tertutup:

\begin{aligned} hal (θ | y) & = \frac{hal (y | θ) hal (θ)}{hal (y)} \\ \propto \frac{Γ (α) Γ (β)}{Γ (α + β)} θ^{α - 1} (1 - θ)^{β - 1} * (\binom{n}{y}) θ^{y} (1 - θ)^{n - y} \\ \propto θ^{α - 1} (1 - θ)^{β - 1} * θ^{y} (1 - θ)^{n - y} \\ \propto θ^{α + y - 1} (1 - θ)^{β + n - y - 1} \\ = \frac{Γ (α + y - 1) Γ (β + n - y - 1)}{Γ (α + β + n - 1)} θ^{α + y - 1} (1 - θ)^{β + n - y - 1} \end{aligned}

$\begin{equation} \begin{split} p(\theta|y) &= \frac{p(y|\theta)p(\theta)}{p(y)} \\ ~\\ ~\\ &\propto\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}*\binom{n}{y}\theta^y(1-\theta)^{n-y} \\ ~\\ ~\\ &\propto\theta^{\alpha-1}(1-\theta)^{\beta-1}*\theta^y(1-\theta)^{n-y} \\ ~\\ &\propto\theta^{\alpha+y-1}(1-\theta)^{\beta+n-y-1} \\ ~\\ &=\frac{\Gamma(\alpha+y-1)\Gamma(\beta+n-y-1)}{\Gamma(\alpha+\beta+n-1)}\theta^{\alpha+y-1}(1-\theta)^{\beta+n-y-1} \end{split} \end{equation}$

$\theta$

Ungkapan bentuk tertutup ini nyaman, tetapi tidak berarti diperlukan. Mengalikan kepadatan probabilitas dapat dilakukan dengan cara yang sama dengan mengalikan ekspresi matematika lainnya; kesulitan datang karena banyak produk kepadatan tidak mudah ditulis ulang seperti beta beta / kemungkinan binomial. Untungnya, di sinilah komputer mengambil kendur.

— Sycorax berkata Reinstate Monica
sumber

Jika Anda mencari pendekatan yang lebih lembut saya bisa sangat merekomendasikan buku karya Kruschke yang menggunakan R untuk menjelaskan konsep inti. Ini adalah pendekatan yang sangat praktis dan langsung untuk mempelajari statistik Bayesian dan di situs webnya Anda dapat menemukan semua kode yang digunakan.

Seseorang juga merekomendasikan teks oleh Cam.Davidson.Pilon kepada saya, belum melihatnya tetapi dapat ditemukan di sini .

— menunggang kuda
sumber

Terima kasih! Saya sebenarnya sudah memiliki buku Kruschke dan baru saja kembali untuk memeriksanya dan menyadari bahwa itulah yang saya butuhkan saat ini. Terima kasih untuk penunjuknya!

— Justin Bozonier

@JustinBozonier Saya juga sangat merekomendasikan Pengantar Teori Statistik (Mood) . Ini memberikan tingkat kekakuan yang relatif tinggi, tetapi hanya mengasumsikan bahwa Anda tahu kalkulus yang sangat mendasar.

— Steve P.