Menggabungkan Distribusi Probabilitas Kelas Sebelumnya dalam Regresi Logistik

9

Saya kagum bahwa saya tidak dapat menemukan artikel / kuliah tentang bagaimana seseorang dapat memasukkan Distribusi Probabilitas Kelas Sebelumnya dalam pengklasifikasi seperti Regresi Logistik atau Hutan Acak.

Jadi pertanyaan saya adalah:

Bagaimana menggabungkan Distribusi Probabilitas Kelas Sebelumnya dalam Regresi Logistik atau Hutan Acak?

Apakah memasukkan Distribusi Probabilitas Kelas Sebelumnya menyiratkan bahwa saya harus menggunakan mesin Bayesian?

Saya menghadapi tugas klasifikasi di mana saya tahu bahwa kelas a jauh lebih mungkin daripada kelas b.

Solusi adhoc adalah dengan hanya memasukkan lebih banyak sampel untuk kelas a dalam set pelatihan, tetapi apakah ada hasil teoritis tentang ini?

Satu hal yang saya pikirkan adalah mengubah ambang keputusan dari 0,5 menjadi nilai dengan mempertimbangkan ketidakseimbangan sebelumnya. Tetapi saya bahkan tidak yakin apakah itu masuk akal secara teori, karena pada titik di mana saya siap untuk mengambil keputusan, saya sudah melihat semua nilai fitur jadi saya tidak perlu peduli tentang probabilitas sebelumnya tetapi probabilitas bersyarat kelas.

— pengguna695652
sumber

5

Misalkan menjadi variabel respons biner dan vektor prediktor dengan kerapatan (yang dapat berupa kontinu, diskrit atau kombinasi keduanya). Catat itu $Y$ $X$ $f$

\frac{P (Y = 1 ∣ X = x)}{P (Y = 0 ∣ X = x)} = \frac{P (Y = 1) f_{X ∣ Y = 1} (x)}{P (Y = 0) f_{X ∣ Y = 0} (x)}

$\frac{P(Y = 1 \mid X = x)}{P(Y = 0 \mid X = x)} = \frac{P(Y = 1) f_{X \mid Y=1}(x)}{P(Y = 0) f_{X \mid Y=0}(x)}$

dan sebagainya

\log (\frac{P (Y = 1 ∣ X = x)}{P (Y = 0 ∣ X = x)}) = \log (\frac{P (Y = 1)}{P (Y = 0)}) + \log (\frac{f_{X ∣ Y = 1} (x)}{f_{X ∣ Y = 0} (x)}) .

$\log \left ( \frac{P(Y = 1 \mid X = x)}{P(Y = 0 \mid X = x)} \right ) = \log \left ( \frac{P(Y = 1)}{P(Y = 0)} \right ) + \log \left ( \frac{f_{X \mid Y=1}(x)}{f_{X \mid Y=0}(x)} \right ) .$

Ini berarti bahwa di bawah model regresi logistik, logaritma peluang sebelumnya dari acara muncul sebagai konstanta aditif dalam peluang log bersyarat. Yang mungkin Anda pertimbangkan adalah penyesuaian intersep di mana Anda mengurangi logit dari peluang empiris dan menambahkan logit dari odds sebelumnya. Tetapi, dengan asumsi bahwa probabilitas sebelumnya akurat, ini tidak berharap akan banyak berpengaruh pada model. Jenis penyesuaian ini dibuat terutama setelah beberapa prosedur pengambilan sampel yang secara artifisial mengubah proporsi peristiwa dalam data. $\{ Y = 1 \}$

— dsaxton
sumber

3

Untuk hutan acak, prior default adalah distribusi set pelatihan kelas empiris. Anda ingin menyesuaikan ini sebelumnya, ketika Anda mengharapkan distribusi kelas set pelatihan jauh dari mencocokkan pengamatan tes baru. Sebelumnya dapat disesuaikan dengan stratifikasi / downsampling atau class_weights.

Stratifictaion / downsampling tidak berarti, bahwa beberapa pengamatan dibuang, mereka hanya akan di-bootstrap menjadi lebih sedikit node root.

Selain menyesuaikan sebelumnya, juga dimungkinkan untuk mendapatkan prediksi probabilitas dari model hutan acak dan memilih ambang kepastian.

Dalam praktiknya, saya menemukan campuran menyesuaikan prior dengan stratifikasi dan memilih ambang batas terbaik sebagai solusi dengan kinerja terbaik. Gunakan plot ROC untuk memutuskan ambang batas. Menyesuaikan class_weights kemungkinan akan memberikan kinerja yang serupa, tetapi kurang transparan, seperti apa jadinya sebelumnya. Untuk stratifikasi, rasio stratifikasi hanyalah yang baru sebelumnya.

Lihat juga jawaban ini untuk lebih jelasnya

— Soren Havelund Welling
sumber