Saya baru-baru ini banyak membaca di situs ini (@Aniko, @Dikran Marsupial, @Erik) dan di tempat lain tentang masalah overfitting yang terjadi dengan validasi silang - (Smialowski dkk 2010 Bioinformatika, Hastie, Elemen pembelajaran statistik). Sarannya adalah bahwa setiap pemilihan fitur yang diawasi (menggunakan korelasi dengan label kelas) dilakukan di luar estimasi kinerja model menggunakan validasi silang (atau metode estimasi model lainnya seperti bootstrap) dapat mengakibatkan overfitting.
Ini tampaknya tidak intuitif bagi saya - tentu saja jika Anda memilih set fitur dan kemudian mengevaluasi model Anda hanya menggunakan fitur yang dipilih menggunakan validasi silang, maka Anda mendapatkan estimasi yang tidak bias dari kinerja model umum pada fitur-fitur tersebut (ini mengasumsikan sampel yang diteliti adalah representatif populasi)?
Dengan prosedur ini seseorang tentu saja tidak dapat mengklaim set fitur optimal tetapi dapatkah seseorang melaporkan kinerja fitur yang dipilih pada data yang tidak terlihat sebagai valid?
Saya menerima bahwa memilih fitur berdasarkan seluruh set data dapat muncul kembali dalam beberapa kebocoran data antara set tes dan kereta. Tetapi jika set fitur statis setelah pemilihan awal, dan tidak ada penyetelan lain yang dilakukan, tentu valid untuk melaporkan metrik kinerja yang divalidasi silang?
Dalam kasus saya, saya memiliki 56 fitur dan 259 kasus dan #cases> #features. Fitur tersebut berasal dari data sensor.
Mohon maaf jika pertanyaan saya tampaknya turunan tetapi ini sepertinya poin penting untuk diklarifikasi.
Sunting: Pada penerapan pemilihan fitur dalam validasi silang pada kumpulan data yang dirinci di atas (berkat jawaban di bawah), saya dapat mengonfirmasi bahwa memilih fitur sebelum validasi silang dalam rangkaian data ini memperkenalkan signifikanbias. Bias / overfitting ini paling baik ketika melakukannya untuk formulasi 3-kelas, dibandingkan dengan formulasi 2-kelas. Saya pikir fakta bahwa saya menggunakan regresi bertahap untuk pemilihan fitur meningkatkan overfitting ini; untuk tujuan perbandingan, pada set data yang berbeda namun terkait I membandingkan rutin pemilihan fitur forward sequential forward yang dilakukan sebelum validasi silang terhadap hasil yang sebelumnya saya dapatkan dengan pemilihan fitur dalam CV. Hasil antara kedua metode tidak berbeda secara dramatis. Ini mungkin berarti bahwa regresi bertahap lebih rentan terhadap overfitting daripada FS berurutan atau mungkin merupakan kekhasan dari kumpulan data ini.