Pertama-tama, saya ingin menjelaskan beberapa tata letak umum yang digunakan buku Penambangan Data yang menjelaskan cara menangani Kumpulan Data Tidak Seimbang . Biasanya bagian utama dinamai Dataset Tidak Seimbang dan mencakup dua subbagian ini: Klasifikasi Sensitif Biaya dan Teknik Pengambilan Sampel.
Tampaknya menghadapi masalah dengan kelas langka, Anda dapat melakukan klasifikasi sensitif biaya dan pengambilan sampel. Sebagai gantinya, saya berpikir bahwa seseorang harus menerapkan teknik sensitif biaya jika kelas langka juga merupakan target klasifikasi dan kesalahan klasifikasi catatan kelas itu mahal.
Di sisi lain, teknik pengambilan sampel, seperti pengambilan sampel berlebih dan pengambilan sampel kurang, berguna jika target klasifikasi adalah akurasi keseluruhan yang baik, tanpa fokus pada kelas tertentu.
Keyakinan ini berasal dari pemikiran MetaCost yang merupakan cara umum untuk membuat classifier menjadi sensitif biaya: jika seseorang ingin membuat classifier sensitif biaya untuk menghukum kesalahan klasifikasi kesalahan kelas langka, dia harus mengambil sampel yang berlebihan di kelas lain . Secara kasar, classifier mencoba beradaptasi dengan kelas lain dan itu menjadi spesifik untuk kelas langka.
Ini adalah kebalikan dari pengambilan sampel berlebihan pada kelas langka, itulah cara yang biasanya disarankan untuk mengatasi masalah ini. Pengambilan sampel berlebihan dari kelas langka atau kurang pengambilan sampel dari kelas lain berguna untuk meningkatkan akurasi keseluruhan.
Tolong, akan lebih bagus jika Anda mengkonfirmasi pikiran saya.
Menyatakan ini, pertanyaan umum yang dihadapi dataset tidak seimbang adalah:
Haruskah saya mencoba untuk mendapatkan dataset yang menghitung sebanyak catatan langka seperti yang lainnya?
Jawaban saya adalah, jika Anda mencari akurasi: OK. Anda dapat melakukannya dengan mencari tahu contoh kelas yang lebih jarang atau menghapus beberapa catatan dari kelas lain.
Jika Anda berfokus pada kelas langka, dengan teknik biaya-sensitif, saya akan menjawab: Anda hanya dapat menemukan contoh kelas yang lebih jarang tetapi Anda tidak boleh menghapus catatan dari kelas lain. Dalam kasus terakhir Anda tidak akan dapat membiarkan classifier beradaptasi dengan kelas lain, dan kesalahan klasifikasi kelas langka dapat meningkat.
Apa yang akan kamu jawab?