Dalam regresi linier berganda standar, kemampuan untuk menyesuaikan estimasi ordinary-least-square (OLS) dalam dua langkah berasal dari teorema Frisch-Waugh-Lovell . Teorema ini menunjukkan bahwa estimasi koefisien untuk prediktor tertentu dalam model linier berganda sama dengan estimasi yang diperoleh dengan regresi residual respons (residu dari regresi variabel respons terhadap variabel penjelas lainnya ) terhadap residual prediktor (residual) dari regresi variabel prediktor terhadap variabel penjelas lainnya ). Jelas, Anda mencari analogi dengan teorema ini yang dapat digunakan dalam model regresi logistik.
Untuk pertanyaan ini, akan sangat membantu untuk mengingat karakterisasi laten-variabel dari regresi logistik :
Yi=I(Y∗i>0)Y∗i=β0+βXxi+βZzi+εiεi∼IID Logistic(0,1).
Dalam karakterisasi model ini, variabel respons laten tidak dapat diobservasi, dan sebaliknya kami mengamati indikator yang memberi tahu kami apakah respons laten positif atau tidak. Bentuk model ini terlihat mirip dengan regresi linier berganda, kecuali bahwa kami menggunakan distribusi kesalahan yang sedikit berbeda (distribusi logistik dan bukan distribusi normal), dan yang lebih penting, kami hanya mengamati indikator yang menunjukkan apakah tanggapan laten positif atau tidak. .Y∗iYi
Ini menciptakan masalah untuk setiap upaya untuk membuat kecocokan dua langkah dari model. Teorema Frisch-Waugh-Lovell ini bertumpu pada kemampuan untuk mendapatkan residu menengah untuk respons dan prediktor minat, diambil terhadap variabel penjelas lainnya. Dalam kasus ini, kami hanya dapat memperoleh residu dari variabel respons "yang dikategorikan". Membuat proses pemasangan dua langkah untuk regresi logistik akan mengharuskan Anda untuk menggunakan residu respons dari variabel respons yang dikategorikan ini, tanpa akses ke respons laten yang mendasarinya. Bagi saya, ini seperti rintangan besar, dan meskipun tidak membuktikan ketidakmungkinan, tampaknya tidak mungkin untuk mencocokkan model dalam dua langkah.
Di bawah ini saya akan memberi Anda akun tentang apa yang diperlukan untuk menemukan proses dua langkah agar sesuai dengan regresi logistik. Saya tidak yakin apakah ada solusi untuk masalah ini, atau jika ada bukti ketidakmungkinan, tetapi materi di sini harus memberi Anda cara untuk memahami apa yang diperlukan.
Seperti apa bentuk regresi logistik dua langkah? Misalkan kita ingin membangun kecocokan dua langkah untuk model regresi logistik di mana parameter diestimasi melalui estimasi kemungkinan-maksimum pada setiap langkah. Kami ingin proses melibatkan langkah menengah yang sesuai dengan dua model berikut:
Yi=I(Y∗∗i>0)Y∗∗i=α0+αXxi+τi Zi=γ0+γXxi+δiτi∼IID Logistic(0,1),δi∼IID g.
Kami memperkirakan koefisien model-model ini (melalui MLEs) dan ini menghasilkan nilai-nilai terpasang menengah . Kemudian pada langkah kedua kita cocok dengan model:α^0,α^X,γ^0,γ^X
Yi=logistic(α^0+α^1xi)+βZ(zi−γ^0−γ^Xxi)+ϵiϵi∼IID f.
Seperti yang ditentukan, prosedur memiliki banyak elemen tetap, tetapi fungsi kerapatan dan dalam langkah-langkah ini tidak ditentukan (meskipun mereka harus distribusi rata-rata nol yang tidak bergantung pada data). Untuk mendapatkan metode pemasangan dua langkah di bawah kendala ini, kita harus memilih dan untuk memastikan bahwa MLE untuk dalam algoritma model-fit dua langkah ini sama dengan MLE yang diperoleh dari model regresi logistik satu langkah atas.gfgfβZ
Untuk melihat apakah ini mungkin, pertama-tama kami menulis semua parameter yang diestimasi dari langkah pertama:
ℓy|x(α^0,α^X)ℓz|x(γ^0,γ^X)=maxα0,αX∑i=1nlnBern(yi|logistic(α0+αXxi)),=maxγ0,γX∑i=1nlng(zi−γ0−γXxi).
Biarkan sehingga fungsi log-likelihood untuk langkah kedua adalah:ϵi=yi−logistic(α^0−α^1xi)+βZ(zi−γ^0−γ^Xxi)
ℓy|z|x(βZ)=∑i=1nlnf(yi−logistic(α^0−α^1xi)+βZ(zi−γ^0−γ^Xxi)).
Kami mensyaratkan bahwa nilai maksimal dari fungsi ini adalah MLE dari model regresi logistik berganda. Dengan kata lain, kami membutuhkan:
arg max βXℓy|z|x(βZ)=arg max βXmaxβ0,βZ∑i=1nlnBern(yi|logistic(β0+βXxi+βZzi)).
Saya serahkan kepada orang lain untuk menentukan apakah ada solusi untuk masalah ini, atau bukti tidak ada solusi. Saya menduga bahwa "kategorisasi" dari variabel respon laten dalam regresi logistik akan membuat tidak mungkin untuk menemukan proses dua langkah.