Saya memiliki set data uji yang sangat tidak seimbang. Set positif terdiri dari 100 kasus sedangkan set negatif terdiri dari 1500 kasus. Di sisi pelatihan, saya memiliki kelompok kandidat yang lebih besar: kelompok pelatihan positif memiliki 1.200 kasus dan kelompok pelatihan negatif memiliki 12.000 kasus. Untuk skenario seperti ini, saya punya beberapa pilihan:
1) Menggunakan SVM tertimbang untuk seluruh rangkaian pelatihan (P: 1200, N: 12000)
2) Menggunakan SVM berdasarkan set pelatihan sampel (P: 1200, N: 1200), 1200 kasus negatif diambil sampel dari 12000 kasus.
Apakah ada panduan teoretis untuk memutuskan pendekatan mana yang lebih baik? Karena set data tes sangat tidak seimbang, haruskah saya menggunakan set pelatihan yang tidak seimbang juga?