apakah ada yang tahu mengapa saya mendapatkan lebih banyak positif palsu daripada negatif palsu (positif adalah kelas minoritas)? Terima kasih sebelumnya atas bantuan Anda!
Karena positif adalah kelas minoritas. Ada banyak contoh negatif yang bisa menjadi positif palsu. Sebaliknya, ada lebih sedikit contoh positif yang bisa menjadi negatif palsu.
Ingat kembali bahwa Recall = Sensitivity=TP( TP+ FN)
Sensitivitas (True Positive Rate) terkait dengan False Positive Rate (1-spesifisitas) sebagaimana divisualisasikan oleh kurva ROC. Pada satu ekstrim, Anda menyebut setiap contoh positif dan memiliki sensitivitas 100% dengan 100% FPR. Di lain, Anda memanggil tidak ada contoh positif dan memiliki sensitivitas 0% dengan 0% FPR. Ketika kelas positif adalah minoritas, bahkan FPR yang relatif kecil (yang mungkin Anda miliki karena Anda memiliki recall tinggi = sensitivitas = TPR) akan berakhir menyebabkan jumlah FP yang tinggi (karena ada begitu banyak contoh negatif).
Sejak
Precision=TP( TP+ FP)
Bahkan pada FPR yang relatif rendah, FP akan membanjiri TP jika jumlah contoh negatif jauh lebih besar.
Kalau tidak,
Klasifikasi positif:C+
Contoh positif:HAI+
Presisi =P(HAI+|C+) =P(C+|HAI+) P(HAI+)P(C+)
P (O +) rendah ketika kelas positif kecil.
Apakah ada di antara Anda yang memiliki saran apa yang bisa saya lakukan untuk meningkatkan ketepatan saya tanpa mengganggu daya ingat saya?
Seperti yang disebutkan oleh @rinspy, GBC bekerja dengan baik dalam pengalaman saya. Namun itu akan lebih lambat dari SVC dengan kernel linear, tetapi Anda dapat membuat pohon yang sangat dangkal untuk mempercepatnya. Selain itu, lebih banyak fitur atau lebih banyak pengamatan mungkin membantu (misalnya, mungkin ada beberapa fitur yang saat ini tidak dianalisis yang selalu disetel ke beberapa nilai di semua FP Anda saat ini).
Mungkin juga layak untuk merencanakan kurva ROC dan kurva kalibrasi. Ini mungkin terjadi bahwa meskipun classifier memiliki presisi rendah, itu bisa mengarah pada estimasi probabilitas yang sangat berguna. Misalnya, hanya dengan mengetahui bahwa hard drive mungkin memiliki kemungkinan gagal 500 kali lipat meningkat, meskipun kemungkinan absolutnya cukup kecil, mungkin informasi penting.
Juga, presisi rendah pada dasarnya berarti bahwa classifier mengembalikan banyak kesalahan positif. Namun ini mungkin tidak terlalu buruk jika positif palsu itu murah.