Kami memiliki kumpulan data kecil (sekitar 250 sampel * 100 fitur) yang kami inginkan untuk membangun klasifikasi biner setelah memilih subset fitur terbaik. Katakanlah bahwa kita mempartisi data menjadi:
Pelatihan, Validasi dan Pengujian
Untuk pemilihan fitur, kami menerapkan model pembungkus berdasarkan pada pemilihan fitur yang mengoptimalkan kinerja pengklasifikasi X, Y dan Z, secara terpisah. Dalam langkah pra-pemrosesan ini, kami menggunakan data pelatihan untuk melatih pengklasifikasi dan data validasi untuk mengevaluasi setiap subset fitur kandidat.
Pada akhirnya, kami ingin membandingkan berbagai pengklasifikasi (X, Y dan Z). Tentu saja, kita dapat menggunakan bagian pengujian data untuk memiliki perbandingan dan evaluasi yang adil. Namun dalam kasus saya, data pengujian akan sangat kecil (sekitar 10 hingga 20 sampel) dan dengan demikian, saya ingin menerapkan cross-validation untuk mengevaluasi model.
Distribusi contoh positif dan negatif sangat tidak seimbang (sekitar 8: 2). Jadi, validasi silang dapat salah mengarahkan kami dalam mengevaluasi kinerja. Untuk mengatasi ini, kami berencana untuk memiliki bagian pengujian (10-20 sampel) sebagai metode perbandingan kedua dan untuk memvalidasi cross-validasi.
Singkatnya, kami mempartisi data menjadi pelatihan, validasi, dan pengujian. Bagian pelatihan dan validasi akan digunakan untuk pemilihan fitur. Kemudian, validasi silang atas data yang sama akan diterapkan untuk memperkirakan model. Akhirnya, pengujian digunakan untuk memvalidasi cross-validasi mengingat ketidakseimbangan data.
Pertanyaannya adalah: Jika kita menggunakan data yang sama (pelatihan + validasi) yang digunakan dalam memilih fitur yang mengoptimalkan kinerja pengklasifikasi X, Y dan Z, dapatkah kita menerapkan validasi silang atas data yang sama (pelatihan + validasi) yang digunakan untuk pemilihan fitur untuk mengukur kinerja akhir dan membandingkan pengklasifikasi?
Saya tidak tahu apakah pengaturan ini dapat mengarah pada ukuran validasi silang yang bias dan menghasilkan perbandingan yang tidak dapat dibenarkan atau tidak.