Saya telah membaca beberapa posting tentang pemilihan fitur dan validasi silang tetapi saya masih memiliki pertanyaan tentang prosedur yang benar.
Misalkan saya memiliki dataset dengan 10 fitur dan saya ingin memilih fitur terbaik. Anggap saya menggunakan pengelompokan tetangga terdekat. Dapatkah saya melakukan pencarian lengkap menggunakan validasi silang untuk memperkirakan tingkat kesalahan sebagai panduan untuk memilih fitur terbaik? Sesuatu seperti kode pseudo berikut
for i=1:( 2^10 -1)
error(i)= crossval(1-nn, selected_fetures(i))
end
i=find(erro(i)==min(error(i));
selected_fetures= selected_features(i);
Apa yang saya coba jelaskan dalam kode semu ini adalah bahwa saya menjalankan validasi silang untuk semua kemungkinan kombinasi fitur dan memilih kombinasi yang memberikan kesalahan minimum.
Saya pikir prosedur ini benar karena saya melakukan pencarian lengkap. Pilihan fitur tidak didasarkan pada seluruh dataset, tetapi pada kesalahan rata-rata pada setiap partisi. Apakah saya overfitting model dengan pemilihan fitur seperti itu?