Versi fleksibel dari regresi logistik

8

Saya mencoba menyesuaikan regresi logistik di mana ada perbedaan besar dalam jumlah poin data di kedua kelompok (70 Vs 10.000). Seorang teman ahli statistik saya mengatakan kepada saya bahwa ini adalah masalah yang diketahui dengan regresi logistik dan bahwa untuk angka-angka itu cocok dengan data dan pada dasarnya tidak berfungsi. Ketika saya menampar data dan membandingkannya dengan model, cukup jelas bahwa ini memang benar.

Saya bertanya-tanya apakah ada yang menyadari metode yang lebih baik / lebih fleksibel untuk menyesuaikan data respons biner seperti ini?

(Ngomong-ngomong aku bukan ahli statistik, jadi santai saja!)

modeling logistic binary-data

— Stacey_bio
sumber

Menurut dua kelompok, maksud Anda kelompok yang ditentukan oleh respons binernya? Jika demikian, Anda harus memikirkan masalah regresi logistik seperti masalah klasifikasi. Untuk satu grup Anda memiliki banyak informasi untuk menemukan variabel yang memprediksi kategori. Tetapi karena kelompok kedua hanya memiliki 70 pengamatan, Anda memiliki sedikit informasi untuk melihat apa yang membuat kelompok kedua berbeda dari yang pertama. Untuk jenis masalah ini, ukuran sampel kecil di grup 2 yang menjadi masalah dan bukan ketidakseimbangan. Jika Anda memiliki 700 vs 100.000, ketidakseimbangan akan sama tetapi masalahnya tidak akan sulit.

— Michael R. Chernick

2

Jadi saya pikir masalah overfitting adalah masalah klasik menggunakan terlalu banyak fitur dengan data terlalu sedikit. Satu-satunya obat untuk overfitting adalah mengurangi jumlah fitur atau menambah ukuran sampel. Menemukan metodologi lain tidak akan membantu.

— Michael R. Chernick

"Menurut dua kelompok, maksud Anda kelompok-kelompok yang ditentukan oleh respons binernya?" - Iya!

— Stacey_bio

Adakah saran tentang di mana saya akan mulai jika mendekati ini sebagai masalah klasifikasi? Apakah ada metode yang mapan yang bisa saya gunakan yang mungkin diketahui oleh siapa pun? Terima kasih!

— Stacey_bio

Pada dasarnya apa yang saya pikir saya cari adalah metode "klasifikasi biner probabilistik" yang cocok untuk data jenis ini. Akan lebih bagus jika ada semacam metode yang mapan (statistik atau sebaliknya)

— Stacey_bio

4

Bahwa itu tidak berhasil tidak datang dari ukuran kelompok yang tidak seimbang, tetapi dari kecilnya salah satu kelompok. Downsampling grup yang lebih besar tidak masalah, tetapi tidak membantu overfitting. (BTW, ada cara yang mudah dan elegan untuk memperbaiki prediksi dari model downsampled, dengan menambahkan ± log (r) ke istilah linear di mana r adalah rasio downsampling.)

Jika overfitting benar-benar masalahnya, Anda harus mengurangi jumlah variabel, atau mengatur model.

— scellus
sumber

4

Masalah ini muncul di hampir semua pendekatan klasifikasi, apakah regresi logistik, mendukung klasifikasi vektor, atau klasifikasi Naif Bayes. Ada dua masalah yang saling terkait:

Sebuah model yang dilatih tentang dataset yang tidak seimbang mungkin lebih cocok dalam arti memperoleh bias yang mendukung kelas mayoritas.
Ketika mengevaluasi model ini pada dataset uji dengan tingkat ketidakseimbangan yang sama, akurasi klasifikasi dapat menjadi ukuran kinerja yang sangat menyesatkan.

Literatur tentang masalah ini telah datang dengan tiga strategi solusi:

Anda dapat mengembalikan keseimbangan pada set latihan dengan undersampling kelas besar atau dengan oversampling kelas kecil, untuk mencegah bias muncul di tempat pertama (lihat respons oleh @grotos).
Atau, Anda dapat memodifikasi biaya kesalahan klasifikasi untuk mencegah model dari mendapatkan bias di tempat pertama.
Perlindungan tambahan adalah untuk mengganti keakuratan dengan ketepatan yang disebut seimbang . Ini didefinisikan sebagai rata-rata aritmatika dari akurasi kelas-spesifik, mana dan mewakili akurasi yang diperoleh pada contoh positif dan negatif, masing-masing. Jika classifier berkinerja sama baiknya di kedua kelas, istilah ini mengurangi ke akurasi konvensional (yaitu, jumlah prediksi yang benar dibagi dengan jumlah total prediksi). Sebaliknya, jika akurasi konvensional di atas kebetulan saja $\phi := \frac{1}{2}\left(\pi^+ + \pi^-\right),$ $\pi^+$ $\pi^-$ karena classifier mengambil keuntungan dari set tes yang tidak seimbang, maka keakuratan yang seimbang, jika sesuai, akan jatuh ke peluang (lihat sketsa di bawah ini yang telah saya ambil dari tanggapan saya terhadap pertanyaan terkait ).

Akurasi vs akurasi seimbang

Seperti yang dijelaskan dalam tanggapan saya sebelumnya, saya akan merekomendasikan untuk mempertimbangkan setidaknya dua pendekatan di atas bersamaan. Sebagai contoh, Anda dapat melakukan oversample kelas minoritas Anda untuk mencegah classifier Anda dari mendapatkan bias mendukung kelas mayoritas. Setelah ini, ketika mengevaluasi kinerja classifier Anda, Anda dapat mengganti keakuratan dengan keakuratan yang seimbang.

— Kay Brodersen
sumber

0

Apakah maksud Anda distribusi tanggapan, yaitu Anda memiliki 70 kasus "YA" dan 10.000 "TIDAK"?

Jika demikian, itu adalah masalah umum dalam aplikasi penambangan data. Bayangkan sebuah database dengan 1.000.000 instance, di mana hanya sekitar 1.000 case "YA". Tingkat respons 1% dan bahkan kurang adalah hal yang umum dalam pemodelan prediksi bisnis. Dan jika Anda memilih sampel untuk melatih model yang merupakan masalah besar, terutama dengan menilai stabilitas model yang diberikan.

Apa yang kami lakukan adalah memilih sampel dengan proporsi berbeda. Dalam contoh di atas, itu akan menjadi 1000 kasus "YA" dan, misalnya, 9000 dari kasus "TIDAK". Pendekatan ini memberikan model yang lebih stabil. Namun, itu harus diuji pada sampel nyata (dengan 1.000.000 baris).

Saya sudah mengujinya dengan model data mining, seperti regresi logistik, pohon keputusan, dll. Namun, saya belum menggunakannya dengan model statistik "tepat" [1].

Anda dapat mencarinya sebagai "oversampling in statistics", hasil pertama cukup bagus: http://www.statssa.gov.za/isi2009/ScientificProgramme/IPMS/1621.pdf

[1] "tepat" dalam arti "bukan penambangan data".

— grotos
sumber

0

Jika Anda menginginkan teknik klasifikasi yang tidak sensitif terhadap proporsi relatif contoh dari kelas yang berbeda, Support Vector Machines memiliki properti itu seperti halnya pohon keputusan.

— fgregg
sumber