Apakah Random Forest pilihan yang baik untuk Klasifikasi data yang tidak seimbang? [Tutup]


9

Terlepas dari pendekatan variabilitas data yang mirip dan terus meningkat, dapatkah hutan acak "sebagai algoritma" dianggap sebagai opsi yang baik untuk klasifikasi data yang tidak seimbang?


Tidak ada . (Harap lebih spesifik dalam pertanyaan Anda, karena pertanyaan ini terlalu luas. Anda perlu mengklarifikasi situasi Anda dan juga apa yang Anda maksud dengan pernyataan "sebagai suatu algoritma" - yang bertentangan dengan hal lain?)
usεr11852

5
@ usεr11852 Saya tidak berpikir itu terlalu luas sama sekali - hanya memiliki jawaban satu kata.
shadowtalker

Apa yang saya maksudkan sebagai suatu algoritma dibandingkan dengan alat klasifikasi lain seperti SVM, regresi logistik, .... apakah RF dianggap sebagai pilihan yang baik?
mhdella

Mengapa tidak mengedit pertanyaan Anda untuk menunjukkan pembanding apa yang Anda pertimbangkan dan situasi apa yang Anda bayangkan menggunakan metode pilihan Anda?
mdewey

@ssdecontrol: Saya semua untuk jawaban yang ringkas; Saya jarang menemukan jawaban satu kata yang sangat mencerahkan. Jawaban Anda sendiri adalah buktinya (karena tidak satu kata: D).
usεr11852

Jawaban:


9

Itu bukan pilihan yang baik.

Hutan acak dibangun di atas pohon keputusan, dan pohon keputusan sensitif terhadap ketidakseimbangan kelas . Setiap pohon dibangun di atas kantung, dan setiap kantung adalah sampel acak seragam dari data (dengan penggantian). Oleh karena itu setiap pohon akan bias dalam arah dan besaran yang sama (rata-rata) berdasarkan ketidakseimbangan kelas.

Ada beberapa teknik untuk mengurangi atau mengurangi ketidakseimbangan kelas, beberapa di antaranya bersifat umum dan beberapa di antaranya khusus untuk hutan acak. Topik itu telah dibahas secara luas di sini dan di tempat lain.

sunting: Saya akan menambahkan bahwa saya tidak berpikir itu secara dramatis lebih buruk daripada opsi lain, misalnya regresi logistik, meskipun saya tidak punya bukti untuk itu


menambah ukuran sampel bootstrap .. sehingga di dapatkan kedua kelas di setiap sampel.
Arpit Sisodia

@ArpitSisodia yang masih akan menghasilkan sampel yang tidak seimbang. Anda harus menggunakan bobot sampel untuk melakukan oversample kelas yang lebih jarang di setiap sampel bootstrap sebelum membangun pohon.
shadowtalker

1
Jawaban yang berargumen ini menyesatkan karena hutan acak adalah pilihan yang bagus, terutama karena RF dapat dengan mudah diberi bobot kelas. Silakan ikuti praktik terbaik yang membantu dalam memberikan proposal balasan ketika mengatakan tidak, jika tidak mengatakan tidak lebih berbahaya daripada membantu.
SwimBikeRun

3

Kelas yang tidak seimbang hanya menjadi masalah jika Anda juga memiliki ketidakseimbangan biaya klasifikasi yang salah. Jika ada kelas minoritas kecil dan tidak terlalu mahal untuk mengklasifikasikan mereka sebagai kelas mayoritas daripada sebaliknya, maka hal yang rasional untuk dilakukan adalah memungkinkan kesalahan klasifikasi kelas minoritas.

Jadi anggaplah Anda memiliki ketidakseimbangan kelas dan biaya. Ada beberapa cara untuk mengatasinya. Buku Max Kuhn "Applied predictive modeling" memiliki tinjauan yang baik di bab 16. Obat-obatan tersebut termasuk menggunakan cutoff selain 0,5 yang mencerminkan biaya yang tidak setara. Ini mudah dilakukan dalam klasifikasi biner selama classifier Anda mengeluarkan label probabilitas (pohon dan hutan melakukan ini). Saya belum melihat ke dalamnya untuk beberapa kelas. Anda juga dapat mengecoh kelas minoritas untuk memberikan bobot lebih.


Saya pikir ini tidak benar. Jika saya memiliki biaya kesalahan klasifikasi yang sama tetapi model saya cenderung melebih-lebihkan satu kelas, saya masih memiliki model yang bias pada akhirnya.
shadowtalker

Itu tidak masalah. Kasus kanker jauh lebih sedikit daripada pasien sehat. Namun Anda harus dapat memprediksi pasien kanker dengan andal karena kehilangan satu jauh lebih mahal daripada memprediksi terlalu banyak. Jika Anda memiliki kumpulan data dengan 99,9% orang sehat dan 0,1% kasus flu biasa, pengklasifikasi terbaik hanya akan mengabaikan kasus flu biasa tersebut.
David Ernst
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.