Saya menggunakan pengklasifikasi naif bayes untuk mengklasifikasikan antara dua kelompok data. Satu kelompok data jauh lebih besar daripada yang lain (di atas 4 kali). Saya menggunakan probabilitas sebelumnya dari setiap grup di classifier.
Masalahnya adalah bahwa hasil yang saya dapatkan memiliki 0% tingkat positif benar dan 0% tingkat positif palsu. Saya mendapatkan hasil yang sama ketika saya mengatur sebelum ke 0,5 dan 0,5.
Bagaimana saya bisa menetapkan ambang batas ke sesuatu yang lebih baik sehingga saya bisa mendapatkan hasil yang lebih seimbang?
Saya memiliki masalah yang sama ketika menggunakan classifier Logistic Regression. Saya menyelesaikannya dengan mengurangi suku sebelumnya dari bias.
Ketika saya menggunakan Fisher Linear Discriminant pada data ini, saya mendapatkan hasil yang baik dengan ambang batas yang ditetapkan di tengah.
Saya berasumsi ada beberapa solusi umum untuk masalah ini, saya tidak bisa menemukannya.
UPDATE: Saya baru saja memperhatikan bahwa saya classifiernya overfitting. Kinerja pada set pelatihan sempurna (100% benar).
Jika saya menggunakan grup yang sama, maka classifier mulai mengklasifikasikan ke grup "kecil" juga, tetapi kinerjanya sangat buruk (lebih buruk daripada FLD atau LR).
UPDATE2: Saya pikir masalahnya adalah saya menggunakan matriks kovarians penuh. Berjalan dengan matriks kovarians diagonal memberi saya hasil yang lebih "seimbang".