Jika Anda hanya memasukkan satu-satunya prediktor ke dalam model, maka rasio peluang antara prediktor dan responsnya akan sama persis dengan koefisien regresi eksponensial . Saya tidak berpikir derivasi dari hasil ini hadir di situs, jadi saya akan mengambil kesempatan ini untuk menyediakannya.
Pertimbangkan hasil biner dan prediktor biner tunggal :YX
X=1X=0Y=1p11p01Y=0p10p00
Kemudian, salah satu cara untuk menghitung rasio odds antara dan adalahXiYi
OR=p11p00p01p10
Dengan definisi probabilitas bersyarat, . Dalam rasio tersebut, probabilitas marginal yang melibatkan dibatalkan dan Anda dapat menulis ulang rasio odds dalam hal probabilitas kondisional :pij=P(Y=i|X=j)⋅P(X=j)XY|X
OR=P(Y=1|X=1)P(Y=0|X=1)⋅P(Y=0|X=0)P(Y=1|X=0)
Dalam regresi logistik, Anda memodelkan probabilitas ini secara langsung:
log(P(Yi=1|Xi)P(Yi=0|Xi))=β0+β1Xi
Jadi kita bisa menghitung probabilitas bersyarat ini langsung dari model. Rasio pertama dalam ekspresi untuk atas adalah:OR
P(Yi=1|Xi=1)P(Yi=0|Xi=1)=(11+e−(β0+β1))(e−(β0+β1)1+e−(β0+β1))=1e−(β0+β1)=e(β0+β1)
dan yang kedua adalah:
P(Yi=0|Xi=0)P(Yi=1|Xi=0)=(e−β01+e−β0)(11+e−β0)=e−β0
memasukkan ini kembali ke rumus, kita memiliki , yang merupakan hasilnya.OR=e(β0+β1)⋅e−β0=eβ1
Catatan: Ketika Anda memiliki prediktor lain, sebut mereka , dalam model, koefisien regresi eksponensial (menggunakan derivasi yang serupa) sebenarnyaZ1,...,Zp
P(Y=1|X=1,Z1,...,Zp)P(Y=0|X=1,Z1,...,Zp)⋅P(Y=0|X=0,Z1,...,Zp)P(Y=1|X=0,Z1,...,Zp)
sehingga rasio odds tergantung pada nilai-nilai prediktor lain dalam model dan, secara umum, tidak sama dengan
P(Y=1|X=1)P(Y=0|X=1)⋅P(Y=0|X=0)P(Y=1|X=0)
Jadi, tidak mengherankan bahwa Anda mengamati perbedaan antara koefisien eksponensial dan rasio odds yang diamati.
Catatan 2: Saya memperoleh hubungan antara true dan rasio peluang sebenarnya tetapi perhatikan bahwa hubungan yang sama berlaku untuk jumlah sampel karena regresi logistik yang sesuai dengan satu prediktor biner akan mereproduksi entri dua-dua. meja. Artinya, alat yang dipasang sama persis dengan rata-rata sampel, seperti halnya dengan GLM. Jadi, semua logika yang digunakan di atas berlaku dengan nilai sebenarnya diganti dengan jumlah sampel. β