Saya memiliki satu set data x, y yang saya gunakan untuk membangun hutan acak. Data x adalah vektor nilai yang mencakup beberapa NAS. Jadi saya gunakan rfImpute
untuk menangani data yang hilang dan membuat hutan acak. Sekarang saya memiliki observasi baru x yang tidak terlihat (dengan NA) dan saya ingin memprediksi y. Bagaimana cara menyalahkan nilai yang hilang sehingga saya dapat menggunakan hutan acak yang sudah saya tanam? The rfImpute
Fungsi tampaknya membutuhkan x dan y. Saya hanya punya x untuk keperluan prediksi.
Pertanyaan saya mirip (tetapi berbeda) dengan pertanyaan ini . Dan misalnya, saya bisa menggunakan set data iris yang sama. Jika saya telah benar menafsirkan kode dalam jawaban untuk pertanyaan yang saya referensi, kode iris.na[148, , drop=FALSE]
dalam pernyataan tersebut iris.na2 = rbind(iris.imputed, iris.na[148, , drop=FALSE])
mewakili data baru yang mencakup Species
(nilai Y). Dalam masalah saya, saya tidak akan tahu - Species
Saya ingin menggunakan hutan acak untuk memprediksi itu. Saya akan memiliki 4 variabel independen, tetapi beberapa mungkin NA
untuk baris yang diberikan. Untuk melanjutkan analogi, bayangkan saya memiliki 3 dari 4 variabel (satu hilang). Saya ingin menyalahkan nilai itu. Lalu saya ingin memprediksi spesies yang saya tidak tahu.
Menanggapi komentar gung bahwa saya harus menambahkan ilustrasi, izinkan saya memasukkannya ke dalam set data iris. Bayangkan saya memiliki data bunga. Aku tahu itu Sepal.Length
, Sepal.Width
, Petal.Length
, tapi bukan Petal.Width
. Saya ingin menyalahkan Petal.Width
dan kemudian menggunakan 4 nilai tersebut dalam model RF untuk memprediksi Species
.