Bayes regression: bagaimana cara dilakukan dibandingkan dengan regresi standar?

Saya mendapat beberapa pertanyaan tentang regresi Bayesian:

Diberikan regresi standar sebagai . Jika saya ingin mengubahnya menjadi regresi Bayesian, apakah saya perlu distribusi sebelumnya baik untuk dan (atau tidakkah cara ini berhasil)? $y = \beta_0 + \beta_1 x + \varepsilon$ $\beta_0$ $\beta_1$
Dalam regresi standar seseorang akan mencoba untuk meminimalkan residu untuk mendapatkan nilai tunggal untuk dan . Bagaimana ini dilakukan dalam regresi Bayes? $\beta_0$ $\beta_1$

Saya sangat berjuang di sini:

posterior = prior \times likelihood

$\text{posterior} = \text{prior} \times \text{likelihood}$

Kemungkinan berasal dari dataset saat ini (jadi ini adalah parameter regresi saya tetapi bukan sebagai nilai tunggal tetapi sebagai distribusi kemungkinan, kan?). Sebelumnya berasal dari penelitian sebelumnya (katakanlah). Jadi saya mendapatkan persamaan ini:

y = β_{1} x + ε

$y = \beta_1 x + \varepsilon$

dengan kemungkinan atau posterior saya (atau apakah ini hanya salah total)? $\beta_1$

Saya benar-benar tidak dapat memahami bagaimana regresi standar berubah menjadi Bayes.

regression bayesian

— TinglTanglBob
sumber

Jawaban:

Model regresi linier sederhana

y_{i} = α + β x_{i} + ε

$y_i = \alpha + \beta x_i + \varepsilon$

dapat ditulis dalam bentuk model probabilistik di belakangnya

μ_{i} = α + β x_{i} y_{i} \sim N (μ_{i}, σ)

$\mu_i = \alpha + \beta x_i \\ y_i \sim \mathcal{N}(\mu_i, \sigma)$

yaitu variabel dependen mengikuti distribusi normal yang diparameterisasi dengan rata-rata , yaitu fungsi linier diparameterisasi oleh , dan dengan standar deviasi . Jika Anda memperkirakan model seperti itu menggunakan kuadrat terkecil biasa , Anda tidak perlu repot dengan formulasi probabilistik, karena Anda mencari nilai optimal parameter dengan meminimalkan kesalahan kuadrat dari nilai yang dipasang ke nilai yang diprediksi. Di sisi lain, Anda bisa memperkirakan model seperti itu menggunakan estimasi kemungkinan maksimum $Y$ $\mu_i$ $X$ $\alpha,\beta$ $\sigma$ $\alpha,\beta$ , di mana Anda akan mencari nilai parameter optimal dengan memaksimalkan fungsi kemungkinan

\underset{α, β, σ}{a r g m a x} \prod_{i = 1}^{n} N (y_{i}; α + β x_{i}, σ)

$\DeclareMathOperator*{\argmax}{arg\,max} \argmax_{\alpha,\,\beta,\,\sigma} \prod_{i=1}^n \mathcal{N}(y_i; \alpha + \beta x_i, \sigma)$

di mana adalah fungsi densitas distribusi normal dievaluasi pada poin, parametrized dengan cara dan standar deviasi . $\mathcal{N}$ $y_i$ $\alpha + \beta x_i$ $\sigma$

Dalam pendekatan Bayesian alih-alih memaksimalkan fungsi kemungkinan saja, kita akan mengasumsikan distribusi sebelumnya untuk parameter dan menggunakan teorema Bayes

posterior \propto likelihood \times prior

$\text{posterior} \propto \text{likelihood} \times \text{prior}$

$\alpha,\beta,\sigma$

\underset{posterior}{\underset{⏟}{f (α, β, σ ∣ Y, X)}} \propto \underset{likelihood}{\underset{⏟}{\prod_{i = 1}^{n} N (y_{i} ∣ α + β x_{i}, σ)}} \underset{priors}{\underset{⏟}{f_{α} (α) f_{β} (β) f_{σ} (σ)}}

$\underbrace{f(\alpha,\beta,\sigma\mid Y,X)}_{\text{posterior}} \propto \underbrace{\prod_{i=1}^n \mathcal{N}(y_i\mid \alpha + \beta x_i, \sigma)}_{\text{likelihood}} \; \underbrace{f_{\alpha}(\alpha) \, f_{\beta}(\beta) \, f_{\sigma}(\sigma)}_{\text{priors}}$

$\alpha,\beta$ $t$ $\sigma$

(sumber: http://www.indiana.edu/~kruschke/BMLR/ )

Sementara di kemungkinan maksimum Anda sedang mencari nilai optimal tunggal untuk masing-masing parameter, dalam pendekatan Bayesian dengan menerapkan teorema Bayes Anda mendapatkan posterior distribusi parameter. Estimasi akhir akan tergantung pada informasi yang berasal dari data Anda dan dari prior Anda , tetapi semakin banyak informasi terkandung dalam data Anda, semakin sedikit berpengaruh adalah prior .

$f(\theta) \propto 1$

Untuk memperkirakan model dalam pendekatan Bayesian dalam beberapa kasus, Anda dapat menggunakan prior konjugat , sehingga distribusi posterior tersedia secara langsung (lihat contoh di sini ). Namun dalam sebagian besar kasus distribusi posterior tidak akan tersedia secara langsung dan Anda harus menggunakan metode Markov Chain Monte Carlo untuk memperkirakan model (lihat contoh ini menggunakan algoritma Metropolis-Hastings untuk memperkirakan parameter regresi linier). Akhirnya, jika Anda hanya tertarik pada estimasi titik parameter, Anda bisa menggunakan estimasi posteriori maksimum , yaitu

\underset{α, β, σ}{a r g m a x} f (α, β, σ ∣ Y, X)

$\argmax_{\alpha,\,\beta,\,\sigma} f(\alpha,\beta,\sigma\mid Y,X)$

Untuk deskripsi yang lebih rinci tentang regresi logistik Anda dapat memeriksa model logit Bayesian - penjelasan intuitif? benang.

Untuk mempelajari lebih lanjut, Anda dapat memeriksa buku-buku berikut:

Kruschke, J. (2014). Melakukan Analisis Data Bayesian: Tutorial dengan R, JAGS, dan Stan. Pers Akademik.

Gelman, A., Carlin, JB, Stern, HS, dan Rubin, DB (2004). Analisis data Bayesian. Chapman & Hall / CRC.

— Tim
sumber

$\beta_i$ $\beta_i$

+1. Satu hal lagi yang mungkin berguna untuk menjelaskan hubungan antara pendekatan Bayesian dan OLS adalah bahwa OLS dapat dipahami sebagai rata-rata posterior di bawah flat sebelumnya (setidaknya sejauh yang saya mengerti). Akan lebih bagus jika Anda bisa menguraikan sedikit dalam jawaban Anda.

— Amoeba berkata Reinstate Monica

@amoeba itu poin yang bagus, saya akan memikirkannya. Tetapi di sisi lain, saya tidak ingin membuat jawaban terlalu lama, jadi ada gunanya pergi ke detail.

— Tim

@amoeba FYI, saya menambahkan komentar singkat tentang itu.

— Tim

$D = (x_1,y_1), \ldots, (x_N,y_N)$ $x \in \mathbb{R}^d, y \in \mathbb{R}$

w \sim N (0, σ_{w}^{2} I_{d})

$w \sim \mathcal{N}(0, \sigma_w^2 I_d)$

$w$ $(w_1, \ldots, w_d)^T$ $I_d$ $d\times d$

Y_{i} \sim N (w^{T} x_{i}, σ^{2})

$Y_i \sim \mathcal{N}(w^T x_i, \sigma^2)$

$Y_i \perp Y_j | w, i \neq j$

$a = 1/\sigma^2$ $b = 1/\sigma_w^2$ $a,b$

p (w) \propto \exp {- \frac{b}{2} w^{t} w}

$p(w) \propto \exp \Big\{ -\frac{b}{2} w^t w \Big\}$

p (D | w) \propto \exp {- \frac{a}{2} (y - A w)^{T} (y - A w)}

$p(D|w) \propto \exp \Big\{ -\frac{a}{2} (y-Aw)^T (y-Aw) \Big\}$

$y = (y_1,\ldots,y_N)^T$ $A$ $n\times d$ $x_i^T$

p (w | D) \propto p (D | w) p (w)

$p(w|D) \propto p(D|w) p(w)$

Setelah banyak perhitungan kami menemukan itu

p (w | D) \sim N (w | μ, Λ^{- 1})

$p(w|D) \sim \mathcal{N}(w | \mu, \Lambda^{-1})$

$\Lambda$

Λ = a A^{T} A + b I_{d}

$\Lambda = a A^T A + b I_d$

μ = a Λ^{- 1} A^{T} y

$\mu = a \Lambda^{-1} A^T y$

$\mu$ $w_{MAP}$

$\mu$ $\Lambda = aA^TA+bI_d$

μ = (A^{T} A + \frac{b}{a} I_{d})^{- 1} A^{T} y

$\mu = (A^T A + \frac{b}{a} I_d)^{-1} A^T y$

$w_{MLE}$

w_{M L E} = (A^{T} A)^{- 1} A^{T} y

$w_{MLE} = (A^T A)^{-1} A^T y$

$\mu$ $\lambda = \frac{b}{a}$

Untuk distribusi posterior prediktif:

p (y | x, D) = \int p (y | x, D, w) p (w | x, D) d w = \int p (y | x, w) p (w | D) d w

adalah mungkin untuk menghitungnya

y | x, D \sim N (μ^{T} x, \frac{1}{a} + x^{T} Λ^{- 1} x)

$y|x,D \sim \mathcal{N}(\mu^Tx, \frac{1}{a} + x^T \Lambda^{-1}x)$

Referensi: Lunn et al. Buku BUGS

Untuk menggunakan alat MCMC seperti JAGS / Stan, periksa Analisis Data Doing Bayesian dari Kruschke

— jpneto
sumber

Terima kasih jpneto. Saya merasa ini adalah jawaban yang bagus, tetapi saya belum memahaminya karena kurangnya pengetahuan matematika. Tapi saya pasti akan membacanya lagi setelah mendapatkan beberapa keterampilan matematika

— TinglTanglBob

Ini sangat bagus, tetapi asumsi bahwa ketepatannya diketahui agak tidak biasa. Bukankah jauh lebih umum untuk mengasumsikan distribusi Gamma terbalik untuk varians, yaitu distribusi Gamma untuk presisi?

— DeltaIV

w

$w$

w \sim N (0, λ^{- 1} I_{d})

$w \sim N(0,\lambda^{-1} I_d)$

λ

$\lambda$

@DeltaIV: pasti, ketika kita memiliki ketidakpastian tentang suatu parameter kita dapat memodelkannya dengan yang sebelumnya. Asumsi presisi yang diketahui adalah untuk membuatnya lebih mudah untuk menemukan solusi analitik. Biasanya, solusi analitik itu tidak mungkin dan kita harus menggunakan perkiraan, seperti MCMC atau teknik variasional.

— jpneto