Misalkan saya ingin mempelajari classifier yang mengambil vektor angka sebagai input, dan memberikan label kelas sebagai output. Data pelatihan saya terdiri dari sejumlah besar pasangan input-output.
Namun, ketika saya datang untuk menguji beberapa data baru, data ini biasanya hanya sebagian yang lengkap. Misalnya jika vektor input panjangnya 100, hanya 30 elemen yang dapat diberi nilai, dan sisanya "tidak diketahui".
Sebagai contohnya, pertimbangkan pengenalan gambar di mana diketahui bahwa bagian dari gambar tersumbat. Atau pertimbangkan klasifikasi dalam pengertian umum di mana diketahui bahwa sebagian data rusak. Dalam semua kasus, saya tahu persis elemen mana dalam vektor data yang merupakan bagian yang tidak diketahui.
Saya bertanya-tanya bagaimana saya bisa belajar classifier yang akan bekerja untuk data seperti ini? Saya hanya bisa mengatur elemen "tidak dikenal" ke angka acak, tetapi mengingat bahwa seringkali ada lebih banyak elemen yang tidak diketahui daripada yang diketahui, ini tidak terdengar seperti solusi yang baik. Atau, saya bisa secara acak mengubah elemen dalam data pelatihan menjadi "tidak diketahui", dan berlatih dengan ini daripada data lengkap, tetapi ini mungkin memerlukan pengambilan sampel lengkap dari semua kombinasi elemen yang diketahui dan tidak diketahui.
Secara khusus saya berpikir tentang jaringan saraf, tetapi saya terbuka untuk pengklasifikasi lain.
Ada ide? Terima kasih!