Saat melakukan aktivitas penggalian pada pertanyaan tanpa jawaban, saya menemukan ini sangat masuk akal, yang, saya kira, sekarang OP telah menemukan jawaban.
Tetapi saya menyadari bahwa saya memiliki berbagai pertanyaan saya sendiri mengenai masalah pemisahan yang sempurna dalam regresi logistik, dan pencarian (cepat) dalam literatur, tampaknya tidak menjawabnya. Jadi saya memutuskan untuk memulai proyek penelitian kecil saya sendiri (mungkin menciptakan kembali roda), dan dengan jawaban ini saya ingin berbagi beberapa hasil awal. Saya percaya hasil ini berkontribusi terhadap pemahaman apakah masalah pemisahan sempurna adalah murni "teknis", atau apakah itu dapat diberikan deskripsi / penjelasan yang lebih intuitif.
Perhatian pertama saya adalah untuk memahami fenomena dalam hal algoritmik, daripada teori umum di belakangnya: di bawah kondisi mana pendekatan estimasi kemungkinan maksimum akan "rusak" jika diumpankan dengan sampel data yang berisi regressor yang mana fenomena sempurna pemisahan ada?
Hasil awal (teoretis dan disimulasikan) menunjukkan bahwa:
1) Penting apakah istilah konstan dimasukkan dalam spesifikasi logit.
2) Itu penting apakah regressor yang dimaksud adalah dikotomis (dalam sampel), atau tidak.
3) Jika dikotomis, mungkin penting apakah itu mengambil nilai atau tidak.
4) Itu penting apakah ada regresi lain dalam spesifikasi atau tidak.
5) Penting bagaimana 4 masalah di atas digabungkan. 0
Sekarang saya akan menyajikan satu set kondisi yang cukup untuk pemisahan sempurna untuk membuat MLE mogok. Ini tidak terkait dengan apakah berbagai perangkat lunak statistik memberikan peringatan terhadap fenomena -mereka dapat melakukannya dengan memindai sampel data sebelum mencoba untuk melakukan estimasi kemungkinan maksimum. Saya prihatin dengan kasus-kasus di mana estimasi kemungkinan maksimum akan dimulai -dan kapan akan rusak dalam proses.
Asumsikan model regresi logistik pilihan biner "biasa"
P(Yi∣β0,Xi,zi)=Λ(g(β0,xi,zi)),g(β0,xi,zi)=β0+β1xi+z′iγ
X adalah regressor dengan pemisahan sempurna, sedangkan adalah kumpulan dari regressor lain yang tidak ditandai oleh pemisahan sempurna. JugaZ
Λ(g(β0,xi,zi))=11+e−g(β0,xi,zi)≡Λi
Log-kemungkinan untuk sampel ukuran adalahn
lnL=∑i=1n[yiln(Λi)+(1−yi)ln(1−Λi)]
MLE akan ditemukan dengan menetapkan turunannya sama dengan nol. Khususnya yang kita inginkan
∑i=1n(yi−Λi)=0(1)
∑i=1n(yi−Λi)xi=0(2)
Persamaan pertama berasal dari mengambil turunan sehubungan dengan istilah konstan, 2 dari mengambil turunan terhadap .X
Asumsikan sekarang bahwa dalam semua kasus di mana kita memiliki , dan tidak pernah mengambil nilai ketika . Ini adalah fenomena pemisahan total, atau "prediksi sempurna": jika kita mengamati kita tahu bahwa . Jika kita mengamati kita tahu bahwa . Ini berlaku terlepas dari apakah, secara teori atau dalam sampel , adalah diskrit atau kontinu, dikotomis atau tidak. Tetapi juga, ini adalah fenomena khusus sampel - kami tidak berpendapat bahwa itu akan menguasai populasi. Tetapi sampel spesifik adalah apa yang kita miliki untuk memberi makan MLE.y1=1xi=akxiakyi=0xi=akyi=1xi≠akyi=0X
Sekarang tunjukkan frekuensi dari olehyi=1ny
ny≡∑i=1nyi=∑yi=1yi(3)
Kami kemudian dapat menulis kembali eq sebagai(1)
ny=∑i=1nΛi=∑yi=1Λi+∑yi=0Λi⇒ny−∑yi=1Λi=∑yi=0Λi(4)
Beralih ke persamaan. kita miliki(2)
∑i=1nyixi−∑i=1nΛixi=0⇒∑yi=1yiak+∑yi=0yixi−∑yi=1Λiak−∑yi=0Λixi=0
menggunakan kita memiliki
(3)
nyak+0−ak∑yi=1Λi−∑yi=0Λixi=0
⇒ak(ny−∑yi=1Λi)−∑yi=0Λixi=0
dan menggunakan kita dapatkan(4)
ak∑yi=0Λixi−∑yi=0Λixi=0⇒∑yi=0(ak−xi)Λi=0(5)
Jadi: jika spesifikasinya berisi istilah yang konstan dan ada pemisahan yang sempurna sehubungan dengan regressor , MLE akan berusaha untuk memuaskan, antara lain, eq juga. X(5)
Tetapi perhatikan, bahwa penjumlahannya lebih dari sub-sampel di mana di mana dengan asumsi. Ini menyiratkan hal berikut:
1) jika adalah dikotomis dalam sampel, maka untuk semua dalam penjumlahan dalam .
2) Jika tidak dikotomis dalam sampel, tetapi adalah nilai minimum atau maksimum dalam sampel, maka sekali lagi untuk semua dalam penjumlahan dalam . yi=0xi≠ak
X(ak−xi)≠0i(5)
Xak(ak−xi)≠0i(5)
Dalam dua kasus ini, dan karena juga non-negatif oleh konstruksi, satu-satunya cara yang eq. bisa dipenuhi adalah ketika untuk semua dalam penjumlahan. TapiΛi(5)Λi=0i
Λi=11+e−g(β0,xi,zi)
dan jadi satu-satunya cara dapat menjadi sama dengan , adalah jika perkiraan parameter sedemikian rupa sehingga . Dan karena linear dalam parameter, ini menyiratkan bahwa setidaknya satu dari estimasi parameter harus "tak terhingga": ini adalah apa artinya bagi MLE untuk "memecah": untuk tidak menghasilkan estimasi yang bernilai terbatas. Jadi kasus 1) dan 2) adalah kondisi yang cukup untuk rincian prosedur MLE.Λi0g(β0,xi,zi)→−∞g()
Tapi mempertimbangkan sekarang kasus di mana tidak dikotomis, dan adalah tidak minimum, atau nilai maksimum dalam sampel. Kami masih memiliki pemisahan total, "prediksi sempurna", tetapi sekarang, dalam persamaan. beberapa istilah akan positif dan beberapa akan negatif. Ini berarti bahwa ada kemungkinan bahwa MLE akan dapat memenuhi persamaan. menghasilkan estimasi terbatas untuk semua parameter. Dan hasil simulasi mengkonfirmasi bahwa ini benar. Xak(5)(ak−xi)(5)
Saya tidak mengatakan bahwa sampel seperti itu tidak menciptakan konsekuensi yang tidak diinginkan untuk properti estimator dll: Saya hanya mencatat bahwa dalam kasus seperti itu, algoritma estimasi akan berjalan seperti biasa.
Selain itu, hasil simulasi menunjukkan bahwa jika tidak ada istilah konstan dalam spesifikasi , tidak dichotomous tetapi adalah nilai ekstrem, dan ada regresi lain yang hadir, sekali lagi MLE akan berjalan - menunjukkan bahwa ada istilah konstan (yang konsekuensi teoritis yang kami gunakan dalam hasil sebelumnya, yaitu persyaratan bagi MLE untuk memenuhi persamaan ), adalah penting.Xak(1)