Regresi logistik dapat digambarkan sebagai kombinasi linear
η= β0+ β1X1+ . . . + βkXk
yang dilewatkan melalui fungsi tautan :g
g( E( Y) ) = η
di mana fungsi tautan adalah fungsi logit
E( Y| X, β) = p = logit- 1( η)
di mana hanya mengambil nilai dalam dan fungsi logit terbalik mengubah kombinasi linear ke rentang ini. Di sinilah regresi logistik klasik berakhir.{ 0 , 1 } ηY{ 0 , 1 }η
Namun jika Anda ingat bahwa untuk variabel yang hanya mengambil nilai dalam , daripada dapat dianggap sebagai . Dalam hal ini, output fungsi logit dapat dianggap sebagai probabilitas bersyarat "sukses", yaitu . Distribusi Bernoulli adalah distribusi yang menggambarkan probabilitas mengamati hasil biner, dengan beberapa parameter , sehingga kita dapat menggambarkan sebagai{ 0 , 1 } E ( Y | X , β ) P ( Y = 1 | X ,E( Y) = P( Y= 1 ){ 0 , 1 }E( Y|X,β)P ( Y = 1 | X , β ) p YP( Y= 1 | X, β)P( Y= 1 | X, β)halY
ysaya∼ Bernoulli ( p )
Jadi dengan regresi logistik kita mencari beberapa parameter yang togeder dengan variabel bebas membentuk kombinasi linier . Dalam regresi klasik (kami menganggap fungsi tautan sebagai fungsi identitas), namun untuk memodelkan yang mengambil nilai dalam kita perlu mengubah agar sesuai dalam kisaran .X η E ( Y | X , β ) = ηβXηE( Y| X, β) = η{ 0 , 1 } η [ 0 , 1 ]Y{ 0 , 1 }η[ 0 , 1 ]
Sekarang, untuk memperkirakan regresi logistik dalam cara Bayesian Anda mengambil beberapa prior untuk parameter seperti halnya regresi linier (lihat Kruschke et al, 2012 ), kemudian gunakan fungsi logit untuk mengubah kombinasi linear , jadi gunakan outputnya sebagai parameter distribusi Bernoulli yang menjelaskan variabel Anda . Jadi, ya, Anda benar-benar menggunakan fungsi persamaan dan logit dengan cara yang sama seperti pada kasus yang sering terjadi, dan sisanya berfungsi (misalnya memilih prior) seperti dengan memperkirakan regresi linier dengan cara Bayesian. η p YβsayaηhalY
Pendekatan sederhana untuk memilih prior adalah dengan memilih distribusi Normal (tetapi Anda juga dapat menggunakan distribusi lain, misalnya distribusi - atau Laplace untuk model yang lebih kuat) untuk dengan parameter dan yang telah disetel atau diambil dari prior hierarkis . Sekarang, dengan memiliki definisi model, Anda dapat menggunakan perangkat lunak seperti JAGS untuk melakukan simulasi Markov Chain Monte Carlo agar Anda dapat memperkirakan model. Di bawah ini saya memposting kode JAGS untuk model logistik sederhana (lihat di sini untuk contoh lebih lanjut).β i μ itβsayaμsayaσ2saya
model {
# setting up priors
a ~ dnorm(0, .0001)
b ~ dnorm(0, .0001)
for (i in 1:N) {
# passing the linear combination through logit function
logit(p[i]) <- a + b * x[i]
# likelihood function
y[i] ~ dbern(p[i])
}
}
Seperti yang Anda lihat, kode langsung diterjemahkan ke definisi model. Apa yang dilakukan oleh perangkat lunak ini adalah mengambil beberapa nilai dari prior Normal untuk a
dan b
, kemudian menggunakan nilai-nilai tersebut untuk memperkirakan p
dan akhirnya, menggunakan fungsi kemungkinan untuk menilai seberapa besar kemungkinan data Anda diberikan parameter-parameter tersebut (inilah saat Anda menggunakan teorema Bayes, lihat di sini untuk keterangan lebih rinci).
Model regresi logistik dasar dapat diperluas untuk memodelkan ketergantungan antara prediktor menggunakan model hierarkis (termasuk hyperpriors ). Dalam hal ini Anda dapat menggambar dari distribusi Normal Multivarian yang memungkinkan kami untuk memasukkan informasi tentang kovarian antara variabel independen ΣβsayaΣ
⎛⎝⎜⎜⎜⎜β0β1⋮βk⎞⎠⎟⎟⎟⎟∼ M V N ⎛⎝⎜⎜⎜⎜⎜⎡⎣⎢⎢⎢⎢μ0μ1⋮μk⎤⎦⎥⎥⎥⎥, ⎡⎣⎢⎢⎢⎢⎢σ20σ1 , 0⋮σk , 0σ0 , 1σ21⋮σk , 1......⋱...σ0 , kσ1 , k⋮σ2k⎤⎦⎥⎥⎥⎥⎥⎞⎠⎟⎟⎟⎟⎟
... tapi ini akan menjadi detail, jadi mari kita berhenti di sini.
Bagian "Bayesian" di sini adalah memilih prior, menggunakan teorema Bayes dan mendefinisikan model dalam istilah probabilistik. Lihat di sini untuk definisi "model Bayesian" dan di sini untuk beberapa intuisi umum tentang pendekatan Bayesian . Yang juga bisa Anda perhatikan adalah bahwa mendefinisikan model cukup mudah dan fleksibel dengan pendekatan ini.
Kruschke, JK, Aguinis, H., & Joo, H. (2012). Waktunya telah tiba: metode Bayesian untuk analisis data dalam ilmu organisasi. Metode Penelitian Organisasi, 15 (4), 722-752.
Gelman, A., Jakulin, A., Pittau, GM, dan Su, Y.-S. (2008). Distribusi prior standar yang lemah untuk informasi logistik dan model regresi lainnya. The Annals of Applied Statistics, 2 (4), 1360–1383.