Saya mencoba mengembangkan model prediksi menggunakan data klinis dimensi tinggi termasuk nilai-nilai laboratorium. Ruang data jarang dengan sampel 5k dan 200 variabel. Idenya adalah untuk memberi peringkat variabel menggunakan metode pemilihan fitur (IG, RF dll) dan menggunakan fitur peringkat teratas untuk mengembangkan model prediksi.
Sementara pemilihan fitur berjalan baik dengan pendekatan Naïve Bayes, saya sekarang menghadapi masalah dalam menerapkan model prediktif karena data yang hilang (NA) di ruang variabel saya. Apakah ada algoritma pembelajaran mesin yang dapat dengan hati-hati menangani sampel dengan data yang hilang?