Saya memiliki data dengan beberapa ribu fitur dan saya ingin melakukan pemilihan fitur rekursif (RFE) untuk menghapus yang tidak informatif. Saya melakukan ini dengan tanda sisipan dan RFE. Namun, saya mulai berpikir, jika saya ingin mendapatkan kecocokan regresi terbaik (hutan acak, misalnya), kapan saya harus melakukan penyetelan parameter ( mtry
untuk RF)? Yaitu, seperti yang saya pahami caret melatih RF berulang kali pada himpunan bagian fitur yang berbeda dengan mtry tetap. Saya kira yang optimal mtry
harus ditemukan setelah pemilihan fitur selesai, tetapi akankah mtry
nilai yang menggunakan caret mempengaruhi subset fitur yang dipilih? Menggunakan tanda sisipan dengan rendah mtry
jauh lebih cepat, tentu saja.
Semoga ada yang bisa menjelaskan hal ini kepada saya.