Mengapa regresi logistik menghasilkan model yang terkalibrasi dengan baik?

Saya memahami bahwa salah satu alasan regresi logistik sering digunakan untuk memprediksi rasio klik-tayang di web adalah karena ia menghasilkan model yang terkalibrasi dengan baik. Apakah ada penjelasan matematis yang bagus untuk ini?

regression logistic

— lsankar4033
sumber

regresi logistik dibuat untuk memprediksi probabilitas -> yang mengarah pada prediksi terkalibrasi jika tidak sesuai. sementara sebagian besar model pembelajaran mesin tidak memprediksi probabilites, melainkan kelas - dan ada beberapa liuk terhadap pseudo-probabilites yang diturunkan dari prediksi ini -> maka perhatikan dengan baik dikalibrasi

— charles

Saya seharusnya mengklarifikasi dalam pertanyaan, tetapi pertanyaan saya lebih tentang mengapa LR sangat berguna untuk memprediksi probabilitas.

— lsankar4033

Perlu dicatat bahwa Anda dapat menyesuaikan regresi logistik dengan output dari classifier yang tidak dikalibrasi untuk mendapatkan model yang dikalibrasi. Ini disebut Platt Scaling en.wikipedia.org/wiki/Platt_scaling

— generic_user

Jawaban:

Iya.

Vektor probabilitas yang diprediksi $p$ dari regresi logistik memenuhi persamaan matriks

X^{t} (p - y) = 0

$X^t(p - y) = 0$

Di mana adalah matriks desain dan adalah vektor respons. Hal ini dapat dilihat sebagai kumpulan dari persamaan linear, satu yang timbul dari setiap kolom dari desain matriks . $X$ $y$ $X$

Mengkhususkan diri untuk mencegat kolom (yang merupakan baris dalam matriks yang dipindahkan), persamaan linier terkait adalah

\sum_{i} (p_{i} - y_{i}) = 0

$\sum_i( p_i - y_i) = 0$

sehingga rata-rata probabilitas prediksi keseluruhan sama dengan rata-rata respons.

Secara umum, untuk kolom fitur biner , persamaan linear yang terkait adalah $x_{ij}$

\sum_{i} x_{i j} (p_{i} - y_{i}) = \sum_{i ∣ x_{i j} = 1} (p_{i} - y_{i}) = 0

$\sum_i x_{ij}(p_i - y_i) = \sum_{i \mid x_{ij} = 1}(p_i - y_i) = 0$

jadi jumlah (dan karenanya rata-rata) dari probabilitas yang diprediksi sama dengan jumlah dari respons, bahkan ketika mengkhususkan pada catatan-catatan yang . $x_{ij} = 1$

— Matthew Drury
sumber

@ MatthewDrury bagaimana saya bisa menafsirkan persamaan pertama Anda? Apakah dalam bentuk ? Namun demikian, hubungan linear ini berlaku? Terima kasih!

p

$p$

1 / (1 + \exp (- x))

$1/(1+\exp(-x))$

— Ric

Ya, p dari bentuk itu. Persamaan pertama berasal dari pengaturan turunan dari fungsi kerugian ke nol.

— Matthew Drury

Ini hanya alamat kalibrasi-in-the-large yang bukan yang kita inginkan: kalibrasi-in-the-small.

— Frank Harrell

@FrankHarrell Peduli untuk menguraikan? Saya belum pernah mendengar istilah itu sebelumnya.

— Matthew Drury

Ada sejarah panjang dalam perkiraan probabilitas literatur yang berasal dari US Weather Service 1950 - di situlah skor Brier pertama kali digunakan. Kalibrasi-dalam-kecil berarti bahwa jika melihat risiko yang diprediksi sebesar 0,01, 0,02, ..., 0,99, masing-masing akurat, yaitu, untuk semua saat ketika risiko yang diprediksi adalah 0,4, hasilnya terjadi sekitar 0,4 dari waktu. Saya menyebut "kalibrasi-in-the-mungil" langkah berikutnya: untuk pria di mana prediksi adalah 0,4 adalah hasilnya 0,4 saat itu, kemudian untuk wanita.

— Frank Harrell

Saya pikir saya bisa memberi Anda penjelasan yang mudah dipahami sebagai berikut:

Kita tahu bahwa fungsi kerugiannya dapat dinyatakan sebagai fungsi berikut: Dimana mewakili jumlah semua sampel pelatihan, label sampel ke-i, probabilitas yang diprediksi dari sampel ke-i: . (perhatikan bias sini)

J (θ) = - \frac{1}{m} \sum_{i = 1}^{m} [y^{(i)} \log (h_{θ} (x^{(i)})) + (1 - y^{(i)}) \log (1 - h_{θ} (x^{(i)}))]

$J(\theta) = -\frac{1}{m}\sum_{i=1}^m \left[ y^{(i)}\log\left(h_\theta \left(x^{(i)}\right)\right) + (1 -y^{(i)})\log\left(1-h_\theta \left(x^{(i)}\right)\right)\right]$
m

y^{(i)}

$y^{(i)}$

h_{θ} (x^{(i)})

$h_{\theta}(x^{(i)})$

\frac{1}{1 + \exp [- α - \sum_{j} θ_{j} x_{j}^{(i)}]}

$\frac{1}{1+\exp[-\alpha -\sum_j \theta_j x^{(i)}_j]}$

α

$\alpha$

Karena tujuan pelatihan adalah untuk meminimalkan fungsi kerugian, mari kita evaluasi turunan parsialnya berkenaan dengan setiap parameter (derivasi terperinci dapat ditemukan di sini ): Dan mengaturnya ke nol yeils: $\theta_j$

\frac{\partial J (θ)}{\partial θ_{j}} = \frac{1}{m} \sum_{i = 1}^{m} [h_{θ} (x^{(i)}) - y^{(i)}] x_{j}^{(i)}

$\frac{\partial J(\theta)}{\partial \theta_j}=\frac{1}{m}\sum_{i=1}^m\left[h_\theta\left(x^{(i)}\right)-y^{(i)}\right]\,x_j^{(i)}$

\sum_{i = 1}^{m} h_{θ} (x^{(i)}) x_{j}^{(i)} = \sum_{i = 1}^{m} y^{(i)} x_{j}^{(i)}

$\sum_{i=1}^m h_\theta\left(x^{(i)}\right)x_j^{(i)}=\sum_{i=1}^m y^{(i)}\,x_j^{(i)}$

Itu berarti bahwa jika model sepenuhnya terlatih, probabilitas yang diprediksi yang kita dapatkan untuk set pelatihan menyebar sendiri sehingga untuk setiap fitur jumlah dari nilai-nilai tertimbang (semua) dari fitur itu sama dengan jumlah nilai-nilai fitur itu dari sampel positif.

Di atas cocok dengan setiap fitur sehingga bias . Menetapkan sebagai 1 dan sebagai yeilds: Kemudian kita mendapatkan: Di mana adalah probabilitas yang diprediksi dari model yang terlatih penuh untuk sampel engan. Dan kita dapat menulis fungsi dengan cara yang ringkas: $\alpha$ $x_0$ $\alpha$ $\theta_0$

\sum_{i = 1}^{m} h_{θ} (x^{(i)}) x_{0}^{(i)} = \sum_{i = 1}^{m} y^{(i)} x_{0}^{(i)}

$\sum_{i=1}^m h_\theta\left(x^{(i)}\right)x_0^{(i)}=\sum_{i=1}^m y^{(i)}\,x_0^{(i)}$

\sum_{i = 1}^{m} h_{θ} (x^{(i)}) = \sum_{i = 1}^{m} y^{(i)}

$\sum_{i=1}^m h_\theta\left(x^{(i)}\right)=\sum_{i=1}^m y^{(i)}$

h_{θ} (x^{(i)})

$h_\theta\left(x^{(i)}\right)$

\sum_{i = 1}^{m} p^{(i)} = \sum_{i = 1}^{m} y^{(i)}

$\sum_{i=1}^m p^{(i)} =\sum_{i=1}^m y^{(i)}$

Kita dapat melihat dengan jelas bahwa regresi logistik dikalibrasi dengan baik.

Referensi: Model Log-linear dan Bidang Acak Bersyarat oleh Charles Elkan

— Lerner Zhang
sumber