Regresi logistik dengan variabel prediktor jarang

8

Saat ini saya memodelkan beberapa data menggunakan regresi logistik biner. Variabel dependen memiliki jumlah kasus positif dan negatif yang baik - tidak jarang. Saya juga memiliki satu set pelatihan besar (> 100.000) dan jumlah efek utama yang saya minati sekitar 15 jadi saya tidak khawatir tentang masalah p> n.

Yang saya khawatirkan adalah bahwa banyak variabel prediktor saya, jika kontinu, adalah nol sebagian besar waktu, dan jika nominal, adalah nol sebagian besar waktu. Ketika variabel prediktor jarang ini mengambil nilai> 0 (atau tidak nol), saya tahu karena terbiasa dengan data bahwa mereka harus menjadi penting dalam memprediksi kasus positif saya. Saya telah berusaha mencari informasi tentang bagaimana kesempitan prediksi ini dapat mempengaruhi model saya.

Secara khusus, saya tidak ingin efek variabel jarang tetapi penting tidak dimasukkan dalam model saya jika ada variabel prediktor lain yang jarang dan berkorelasi tetapi sebenarnya tidak melakukan pekerjaan yang baik untuk memprediksi kasus positif .

Sebagai contoh, jika saya mencoba membuat model apakah seseorang diterima di universitas liga ivy tertentu dan tiga prediktor saya adalah skor SAT, IPK, dan "donasi> 1 Juta dolar" sebagai biner, saya punya alasan untuk percaya bahwa "sumbangan> 1 Juta dolar", ketika benar, akan menjadi sangat prediksi penerimaan - lebih dari IPK atau SAT tinggi - tetapi juga sangat jarang. Bagaimana, jika sama sekali, apakah ini akan mempengaruhi model logistik saya dan apakah saya perlu melakukan penyesuaian untuk ini? Juga, akankah model model lain (katakan pohon keputusan, hutan acak, dll) menangani ini dengan lebih baik?

— Christianne
sumber

2

1) Sparcity data dapat dirusak oleh regularisasi L1.

2) Anda juga dapat mencoba sub-sampel dan pengambilan sampel data secara berlebihan (jangan lupa untuk mengkalibrasi hasil berdasarkan rasio pengambilan sampel yang digunakan sebelumnya)

3) Model Anda juga akan menjaga signifikansi berbagai variabel.

— Arpit Sisodia
sumber

0

Jika data Anda disertai dengan sedikit ketidakpastian, Anda dapat membuat tingkat kepercayaan di sekitar variabel prediktor yang jarang. Dalam contoh Anda, variabel kategori di mana:

0 = pasti tidak disumbangkan> $ 1 juta dolar

1 = mungkin disumbangkan> $ 1 juta dolar

2 = pasti disumbangkan> $ 1 juta dolar

Ini telah bekerja dengan baik untuk saya di masa lalu

— Lebee
sumber