Anda perlu mengatasi ketidakseimbangan kelas jika / karena itu membuat model Anda lebih baik (pada data yang tidak terlihat). "Lebih baik" adalah sesuatu yang harus Anda definisikan sendiri. Bisa jadi keakuratan, bisa juga biaya, bisa jadi tingkat positif yang sebenarnya dll
Ada nuansa halus yang penting untuk dipahami ketika berbicara tentang ketidakseimbangan kelas. Yaitu, apakah data Anda tidak seimbang karena:
- distribusi data itu sendiri tidak seimbang
Dalam beberapa kasus, satu kelas terjadi lebih dari yang lain. Dan tidak apa-apa. Dalam hal ini, Anda harus melihat apakah kesalahan tertentu lebih mahal daripada yang lain. Ini adalah contoh khas mendeteksi penyakit mematikan pada pasien, mencari tahu apakah seseorang adalah teroris dll. Ini kembali ke jawaban singkat. Jika beberapa kesalahan lebih mahal daripada yang lain, Anda akan ingin "menghukum" mereka dengan memberi mereka biaya yang lebih tinggi. Oleh karena itu, model yang lebih baik akan memiliki biaya yang lebih rendah. Jika semua kesalahan sama buruknya, maka tidak ada alasan nyata mengapa Anda harus menggunakan model yang sensitif biaya.
Penting juga untuk dicatat bahwa menggunakan model biaya-sensitif tidak spesifik untuk dataset yang tidak seimbang. Anda dapat menggunakan model seperti itu jika data Anda juga sangat seimbang.
- itu tidak mewakili distribusi data yang sebenarnya
Terkadang data Anda "tidak seimbang" karena tidak mewakili distribusi data yang sebenarnya. Dalam hal ini, Anda harus berhati-hati, karena Anda memiliki "terlalu banyak" contoh satu kelas dan "terlalu sedikit" yang lain, dan karena itu, Anda perlu memastikan bahwa model Anda tidak over- / underfit pada satu dari kelas-kelas ini.
Ini berbeda dari menggunakan biaya karena mungkin tidak terjadi bahwa satu kesalahan lebih buruk daripada yang lain. Apa yang akan terjadi adalah Anda akan menjadi bias dan itu tidak akan bermanfaat bagi model Anda jika data yang tidak terlihat tidak memiliki distribusi yang sama dengan data yang Anda latih.
Katakanlah saya memberi Anda data pelatihan dan tujuan Anda adalah menebak apakah ada sesuatu yang merah atau biru. Apakah Anda salah mengira biru untuk merah atau merah untuk biru tidak membuat banyak perbedaan. Data pelatihan Anda memiliki 90% kasus merah di mana dalam kehidupan nyata, mereka hanya terjadi 10% dari waktu. Anda harus menghadapinya untuk membuat model Anda lebih baik.