Saya selalu suka berpikir tentang regresi logistik sebagai apa yang terjadi jika Anda menerapkan keputusan biner ke model linier. Yaitu, mari kita asumsikan ada beberapa hubungan mendasar yang mengikuti model linier:
mana adalah variabel independen Anda dan koefisien (atau kemiringan) pada variabel itu, dan adalah noise acak. Lalu katakanlah kita menerapkan fungsi ke variabel kontinu yang memetakannya ke hasil biner:
dimana
y=Xβ+ε
Xβεyf(y)={0, if y⩽θ1, if y>θ
θadalah ambang batas. Berapa probabilitas bahwa fungsi ini mengembalikan , diberi nilai tertentu ? Jika kita mengasumsikan bahwa terdistribusi secara normal dengan rata-rata dan varians , maka kita dapat menghitung probabilitas ini sebagai:
1Xε0σ2
p(f(y)=1|X)=p(y>θ|X)=∫∞θN(y;Xβ,σ2)dy
Dengan kata lain, ini menghitung area di bawah distribusi Normal yang berada di sebelah kanan ambang. Perhatikan bahwa probabilitas ini pada dasarnya adalah apa yang coba dijelaskan oleh model regresi logistik. Dan memang, jika Anda memplot probabilitas ini sebagai fungsi , Anda mendapatkan sesuatu yang cukup dekat dengan fungsi logistik (sebenarnya fungsi logistik sering digunakan sebagai pendekatan yang mudah digunakan untuk distribusi Normal kumulatif).X
Untuk nilai-nilai dekat ambang batas, probabilitas bahwa akan berada di atas ambang batas adalah dekat , karena kebisingan dapat mempengaruhi hasilnya. Ketika Anda meningkatkan , akan semakin jauh dari dan menjadi lebih mungkin. Yang terpenting, seberapa cepat meningkat dengan tergantung pada dua hal: kemiringan dan varians derau . Lebih tepatnya, itu tergantung pada rasioXβy0.5εXXβθf(y)=1p(f(y)=1|X)Xβσ2βσ. Rasio (signal-to-noise) inilah yang menentukan koefisien (yang diharapkan) yang Anda dapatkan dari regresi logistik. Dengan kata lain, Anda dapat menganggap koefisien dalam regresi logistik sebagai pengontrol seberapa besar masing-masing variabel independen perlu berubah relatif terhadap derau dalam data untuk meningkatkan probabilitas hasil tertentu dengan jumlah tertentu.
Sekarang untuk datang ke pertanyaan Anda: Anda bertanya apakah mungkin untuk menghilangkan semua keacakan, yaitu tidak memiliki suara. Ini berarti sama dengan , dan karenanya akan tidak terdefinisi (atau "tak terbatas"). Ini menjelaskan apa yang Anda temukan, bahwa Anda tidak dapat memperkirakan koefisien ketika tidak ada suara. Memang, Anda dapat memikirkan pemisahan sempurna yang Anda capai tanpa noise sebagai sesuai dengan koefisien tak terbatas pada variabel independen Anda, karena (untuk dekat ambang ) Anda hanya perlu mengubah jumlah yang sangat kecil untuk pergi semua jalan dari ke .σ0βσXβθXp(y>θ|X)=0p(y>θ|X)=1
Sunting: sebenarnya satu hal yang dapat Anda lakukan adalah alih-alih menggambar sampel dari distribusi binomial untuk mensimulasikan data Anda, ganti sampel ini dengan harapan mereka, yaitu probabilitas yang diprediksi oleh fungsi logistik yang disimulasikan. Dengan begitu, Anda menghilangkan keacakan yang berasal dari simulasi sampel terbatas (yaitu variabilitas sampling), dan dengan demikian estimasi koefisien Anda kemudian harus sama dengan kebenaran dasar (karena ada satu fungsi logistik yang tepat sesuai dengan nilai-nilai ini).