Pertanyaan saya adalah tentang validasi silang ketika ada lebih banyak variabel daripada pengamatan. Untuk memperbaiki ide, saya mengusulkan untuk membatasi kerangka klasifikasi dalam dimensi yang sangat tinggi (lebih banyak fitur daripada pengamatan).
Masalah: Asumsikan bahwa untuk setiap variabel Anda memiliki ukuran kepentingan daripada secara tepat mengukur minat fitur untuk masalah klasifikasi. Masalah memilih subset fitur untuk mengurangi secara optimal kesalahan klasifikasi kemudian dikurangi menjadi menemukan jumlah fitur.
Pertanyaan: Apa cara paling efisien untuk menjalankan validasi silang dalam kasus ini (skema validasi silang)? Pertanyaan saya bukan tentang bagaimana menulis kode tetapi pada versi validasi silang untuk digunakan ketika mencoba menemukan jumlah fitur yang dipilih (untuk meminimalkan kesalahan klasifikasi) tetapi bagaimana menangani dimensi tinggi ketika melakukan validasi silang (karenanya masalah di atas mungkin sedikit seperti 'masalah mainan' untuk membahas CV dalam dimensi tinggi).
Notasi: adalah ukuran set pembelajaran, p jumlah fitur (yaitu dimensi ruang fitur). Dimensi yang sangat tinggi maksud saya p >> n (misalnya dan ).