Saya tidak pernah benar-benar menemukan teks atau contoh yang bagus tentang bagaimana menangani data 'tidak ada' untuk input ke segala jenis classifier. Saya telah membaca banyak tentang data yang hilang tetapi apa yang dapat dilakukan tentang data yang tidak dapat atau tidak ada dalam kaitannya dengan input multivarian. Saya mengerti ini adalah pertanyaan yang sangat kompleks dan akan bervariasi tergantung pada metode pelatihan yang digunakan ...
Misalnya jika mencoba memprediksi waktu lap untuk beberapa pelari dengan data akurat yang baik. Di antara banyak input, variabel yang mungkin di antara banyak adalah:
- Variabel Input - Pelari pertama kali (Y / T)
- Variabel Input - Putaran sebelumnya (0 - 500 detik)
- Variabel Input - Usia
- Variabel Input - Tinggi. . . banyak lagi variabel Input, dll
& Output Predictor - Prediksi Laptime (0 - 500 detik)
'Variabel yang hilang' untuk '2.Previous laptime' dapat dihitung beberapa cara tetapi '1. Pelari pertama kali 'akan selalu sama dengan N. Tetapi untuk 'NON EXISTENT DATA' untuk pelari pertama kali (di mana '1. Pelari pertama kali' = Y) berapa nilai / perawatan yang harus saya berikan untuk '2. Laptime sebelumnya?
Misalnya menetapkan '2. Laptime sebelumnya 'sebagai -99 atau 0 dapat mengubah distribusi secara dramatis dan membuatnya tampak seperti pelari baru telah berkinerja baik.
Metode pelatihan saya saat ini telah menggunakan regresi logistik, SVM, NN & pohon Keputusan