Dalam makalahnya Linear Model Selection oleh Cross-Validation , Jun Shao menunjukkan bahwa untuk masalah pemilihan variabel dalam regresi linier multivariat, metode validasi silang tinggalkan-satu-keluar (LOOCV) adalah 'tidak konsisten asimptotik'. Dalam bahasa Inggris biasa, cenderung memilih model dengan variabel terlalu banyak. Dalam studi simulasi, Shao menunjukkan bahwa bahkan untuk sedikitnya 40 pengamatan, LOOCV dapat berkinerja buruk dalam teknik validasi silang lainnya.
Makalah ini agak kontroversial, dan agak diabaikan (10 tahun setelah publikasi, rekan-rekan chemometrics saya belum pernah mendengarnya dan dengan senang hati menggunakan LOOCV untuk pemilihan variabel ...). Ada juga kepercayaan (saya bersalah atas hal ini), bahwa hasilnya agak melampaui lingkup terbatas asli.
Pertanyaannya, lalu: seberapa jauh hasil ini meluas? Apakah mereka dapat diterapkan untuk masalah berikut?
- Seleksi variabel untuk regresi logistik / GLM?
- Seleksi variabel untuk klasifikasi Fisher LDA?
- Pilihan variabel menggunakan SVM dengan ruang kernel terbatas (atau tidak terbatas)?
- Perbandingan model dalam klasifikasi, katakanlah SVM menggunakan kernel yang berbeda?
- Perbandingan model dalam regresi linier, katakanlah membandingkan MLR dengan Regresi Ridge?
- dll.