Manakah dari set pilihan langkah di bawah ini yang benar ketika membuat model prediksi?
Pilihan 1:
Pertama, hilangkan prediktor yang paling buruk, dan siapkan yang tersisa jika perlu, kemudian latih berbagai model dengan validasi silang, pilih beberapa yang terbaik, identifikasi prediktor teratas yang digunakan masing-masing, kemudian latih kembali model-model tersebut dengan hanya prediktor tersebut dan evaluasi keakuratannya. lagi dengan cross-validation, lalu pilih yang terbaik dan latihlah pada set pelatihan lengkap menggunakan prediktor utamanya dan kemudian gunakan untuk memprediksi set tes.
Pilihan 2:
Pertama menghilangkan prediktor yang paling buruk, kemudian memproses sisanya jika diperlukan, kemudian menggunakan teknik pemilihan fitur seperti pemilihan fitur rekursif (mis. RFE dengan rf) dengan validasi silang misalnya untuk mengidentifikasi jumlah ideal dari prediktor kunci dan apa yang diprediksi oleh para prediktor ini. adalah, kemudian latih tipe model yang berbeda dengan validasi silang dan lihat mana yang memberikan akurasi terbaik dengan prediktor top yang diidentifikasi sebelumnya. Kemudian latih salah satu model terbaik lagi dengan prediktor tersebut pada set pelatihan penuh dan kemudian gunakan untuk memprediksi set tes.