Mengapa regresi logistik dikalibrasi dengan baik, dan bagaimana cara merusak kalibrasi?

Dalam scikit mempelajari dokumen tentang probabilitas kalibrasi mereka membandingkan regresi logistik dengan metode lain dan menyatakan bahwa hutan acak kurang dikalibrasi dengan baik daripada regresi logistik.

Mengapa regresi logistik dikalibrasi dengan baik? Bagaimana seseorang dapat merusak kalibrasi dari regresi logistik (bukan yang ingin dilakukannya - seperti latihan)?

regression logistic calibration

— pengguna0
sumber

Jawaban:

Meskipun pertanyaan ini dan jawaban pertamanya tampaknya difokuskan pada masalah teoritis kalibrasi model regresi logistik, masalah:

Bagaimana seseorang dapat merusak kalibrasi dari regresi logistik ...?

patut mendapat perhatian sehubungan dengan aplikasi dunia nyata, untuk pembaca masa depan halaman ini. Kita tidak boleh lupa bahwa model regresi logistik harus ditentukan dengan baik, dan bahwa masalah ini bisa sangat menyulitkan untuk regresi logistik.

Pertama, jika log-odds keanggotaan kelas tidak linier terkait dengan prediktor yang termasuk dalam model maka itu tidak akan dikalibrasi dengan baik. Bab 10 Harrell tentang Regresi Logistik Biner mencurahkan sekitar 20 halaman untuk "Penilaian Model Fit" sehingga orang dapat mengambil keuntungan dari "ketidakberpihakan asimtotik dari estimator kemungkinan maksimum," seperti yang dikatakan @whuber dalam praktiknya.

Kedua, spesifikasi model adalah masalah khusus dalam regresi logistik, karena memiliki bias variabel yang dihilangkan yang dapat mengejutkan bagi mereka yang memiliki latar belakang dalam regresi linier biasa. Seperti yang dikatakan halaman itu:

Variabel yang dihilangkan akan bias koefisien pada variabel yang disertakan bahkan jika variabel yang dihilangkan tidak berkorelasi dengan variabel yang disertakan.

Halaman itu juga memiliki penjelasan yang berguna tentang mengapa perilaku ini diharapkan, dengan penjelasan teoretis untuk model probit terkait yang dapat ditelusuri secara analitis. Jadi, kecuali Anda tahu bahwa Anda telah memasukkan semua prediktor yang terkait dengan keanggotaan kelas, Anda mungkin menghadapi bahaya kesalahan spesifikasi dan kalibrasi yang buruk dalam praktiknya.

Sehubungan dengan spesifikasi model, sangat mungkin bahwa metode berbasis pohon seperti hutan acak, yang tidak mengasumsikan linieritas pada seluruh rentang nilai prediktor dan secara inheren memberikan kemungkinan untuk menemukan dan termasuk interaksi di antara para prediktor, akan berakhir dengan lebih baik- Model yang dikalibrasi dalam praktik daripada model regresi logistik yang tidak memperhitungkan istilah interaksi atau non-linearitas cukup. Sehubungan dengan bias variabel yang dihilangkan, tidak jelas bagi saya apakah ada metode untuk mengevaluasi probabilitas keanggotaan kelas dapat menangani masalah itu secara memadai.

— EdM
sumber

Regresi logistik adalah metode klasifikasi yang pada dasarnya mempelajari fungsi probabilitas atas ruang input dengan menyesuaikan parameter . Jika probabilitas yang diprediksi dipelajari dengan fungsi kerugian yang sesuai, maka regresi logistik berpotensi untuk mempelajari estimasi probabilitas kejadian biner yang tidak bias, setiap kali memiliki kapasitas yang cukup (fitur input). $\pi_\theta(x)$ $\theta$

$z \thicksim \text{Ber}(p)$ $p$ $z$ $\mathcal{X}$ $\mathcal{X}$ $y_i$ $x_i$ $y_i \thicksim \text{Ber}(\pi(x_i))$ $\pi_\theta$ $\pi_\theta$ $\pi^*$

Menggunakan model pengamatan yang salah dengan regresi logistik akan mengarah pada probabilitas yang tidak terkalibrasi. Pemodelan peristiwa biner dengan distribusi normal tidak sesuai, dan tidak boleh digunakan dalam kombinasi dengan regresi logistik. Fungsi kerugian yang sesuai dengan model pengamatan distribusi normal adalah Mean Squared Error. Dengan demikian, menggunakan kerugian MSE pasti akan menghambat kalibrasi.

— kortaks
sumber

Logistik regresi memanggil metode klasifikasi di situs ini! Terima kasih atas jawabannya - sepertinya Anda menyiratkan bahwa tujuan kehilangan log adalah alasan untuk kalibrasi (dengan asumsi modelnya cukup fleksibel)?

— user0

Tindak lanjut - Anda mengatakan kalibrasi membutuhkan estimasi probabilitas yang tidak bias - maka kalibrasi reruntuhan hukuman?

— user0

«LogisticRegression mengembalikan prediksi yang terkalibrasi dengan baik secara default karena secara langsung mengoptimalkan log-loss» - scikit-learn.org/stable/modules/calibration.html

— cortax

Menurut definisi, hukuman atau regularisasi, adalah injeksi bias yang sering berupaya untuk mengurangi varians dari estimator. Regulatorisasi besar-besaran dapat mendominasi bagian data dari fungsi objektif, dan tentu saja merusak kalibrasi.

— cortax

Kutipan scikit-belajar tentang "mengoptimalkan kehilangan log" bukan penjelasan yang efektif, karena tidak ada koneksi yang diperlukan antara ini dan menjadi tidak memihak. Kecuali jika saya salah, jawaban yang benar untuk pertanyaan tersebut perlu memunculkan ketidakberpihakan asimtotik dari penduga kemungkinan maksimum yang biasanya digunakan dalam prosedur regresi logistik.

— whuber