Pertanyaan saya diarahkan pada teknik untuk menangani data yang tidak lengkap selama pengklasifikasi / pelatihan model / pemasangan.
Misalnya, dalam dataset dengan beberapa ratus baris, setiap baris memiliki misalkan lima dimensi dan label kelas sebagai item terakhir, sebagian besar titik data akan terlihat seperti ini:
[0.74, 0.39, 0.14, 0.33, 0.34, 0]
Beberapa mungkin terlihat seperti ini:
[0,21, 0,68,?, 0,82, 0,58, 1]
Jadi jenis-jenis titik data itulah yang menjadi fokus dari Pertanyaan ini.
Alasan awal saya untuk mengajukan pertanyaan ini adalah masalah langsung di depan saya; namun, sebelum memposting Pertanyaan saya, saya pikir mungkin akan lebih berguna jika saya mengutarakannya kembali sehingga jawaban akan bermanfaat bagi sebagian besar Komunitas.
Sebagai heuristik sederhana, mari kita bagi teknik-teknik penanganan data ini berdasarkan pada kapan selama aliran pemrosesan yang digunakan - sebelum input ke pengklasifikasi atau selama (yaitu, teknik berada di dalam pengklasifikasi).
Contoh terbaik yang dapat saya pikirkan untuk yang terakhir adalah teknik 'percabangan tiga arah' yang cerdas yang digunakan dalam Pohon Keputusan.
Tidak diragukan lagi, kategori sebelumnya jauh lebih besar. Teknik yang saya sadari semua termasuk dalam salah satu grup di bawah ini.
Saat baru-baru ini meninjau catatan pribadi saya tentang "penanganan data yang hilang" saya perhatikan bahwa saya memiliki daftar teknik yang cukup mengesankan. Saya hanya menyimpan catatan ini untuk ketenangan pikiran dan seandainya seorang kolega junior bertanya kepada saya bagaimana menangani data yang hilang. Dalam praktik sebenarnya, saya tidak benar-benar menggunakannya, kecuali yang terakhir.
Imputasi : rubrik luas untuk serangkaian teknik yang denominator umumnya (saya percaya) adalah bahwa data yang hilang dipasok langsung oleh set data yang sama - substitusi alih-alih estimasi / prediksi.
Rekonstruksi : memperkirakan titik data yang hilang menggunakan jaringan asosiasi otomatis (hanya jaringan saraf di mana ukuran lapisan input dan output sama - dengan kata lain, output memiliki dimensi yang sama dengan input); ide di sini adalah untuk melatih jaringan ini pada data yang lengkap, kemudian memberinya pola yang tidak lengkap, dan membaca nilai yang hilang dari node output.
Bootstrapping : (tidak perlu ringkasan, saya tidak boleh berpikir, mengingat itu digunakan di tempat lain dalam analisis statistik).
Penolakan : hapus dengan tenang poin data dengan elemen yang hilang / rusak dari set pelatihan Anda dan berpura-puralah mereka tidak pernah ada.
modern
teknik - teknik ini ? Terima kasih
mice
memiliki makalah pengantar yang bagus tentang JSS: jstatsoft.org/article/view/v045i03 . (Anda harus menemukan pengantar bermanfaat, bahkan jika Anda tidak menggunakan R.) Dan paket R Amelia
memiliki sketsa bagus yang disertakan dengan paket. Kedua paket ini berbeda dalam detailnya, tetapi keduanya menggunakan imputasi ganda.