Ide dasarnya adalah melakukan penggantian cepat data yang hilang dan kemudian secara iteratif meningkatkan imputasi yang hilang menggunakan kedekatan. Untuk bekerja dengan data yang tidak berlabel, cukup mereplikasi data dengan semua label, dan kemudian memperlakukannya sebagai data berlabel.
Bagian dari pohon yang mana sepasang pengamatan berbagi node terminal memberikan matriks kedekatan, dan dengan demikian secara eksplisit menggunakan label kelas.
Perlengkapan latihan:
- Ganti nilai yang hilang dengan nilai rata-rata.
Ulangi sampai puas:
Sebuah. Dengan menggunakan nilai yang dihitung yang dihitung sejauh ini, latih hutan acak.
b. Hitung matriks kedekatan.
c. Dengan menggunakan kedekatan sebagai bobot, hubungkan nilai yang hilang sebagai rata-rata tertimbang dari nilai yang tidak hilang.
Set tes:
- Jika label ada, gunakan imputasi yang berasal dari data uji.
- Jika data tidak berlabel, gandakan set tes dengan salinan untuk setiap label kelas dan lanjutkan seperti dengan data berlabel.
Di sini, rata-rata (terbobot) mengacu pada median (terbobot) untuk variabel numerik dan mode (terbobot) untuk variabel kategorikal. 4-6 iterasi direkomendasikan dalam referensi.
Dokumentasi R (pdf) , panduan Breiman v4.0 (pdf) , halaman RF Breiman