saya punya satu set data yang benar-benar biner. setiap set nilai variabel berada di domain: true, false.
properti "khusus" dari kumpulan data ini adalah bahwa mayoritas dari nilai-nilai itu "salah".
Saya telah menggunakan algoritma pembelajaran jaringan bayesian untuk mempelajari jaringan dari data. Namun, untuk salah satu node target saya (yang paling penting, menjadi mati), hasil AUC tidak terlalu baik; ini sedikit lebih baik daripada kebetulan. bahkan nilai prediktif positif (PPV), yang telah disarankan kepada saya di CV, tidak bersaing dengan apa yang dilaporkan dalam literatur dengan pendekatan lain. perhatikan bahwa AUC (analisis ROC) adalah patokan khas yang dilaporkan dalam bidang penelitian klinis ini, tetapi saya juga terbuka untuk saran tentang bagaimana cara lebih tepat membandingkan model klasifikasi jika ada ide lain.
jadi, saya bertanya-tanya apa model klasifikasi lain yang bisa saya coba untuk jenis kumpulan data dengan properti ini (kebanyakan nilai-nilai palsu).
- akan mendukung bantuan mesin vektor? Sejauh yang saya tahu, SVM hanya berurusan dengan variabel kontinu sebagai prediktor (meskipun telah disesuaikan dengan multi-kelas). tapi variabel saya semuanya biner.
- akankah hutan secara acak membantu?
- apakah regresi logistik berlaku di sini? Sejauh yang saya tahu, prediktor dalam regresi logistik juga berkelanjutan. apakah ada versi umum untuk variabel biner sebagai prediktor?
Selain dari kinerja klasifikasi, saya menduga SVM dan hutan acak mungkin sangat baik mengungguli jaringan bayesian, tetapi masalahnya bergeser ke bagaimana menjelaskan hubungan dalam model ini (terutama untuk dokter).