Haruskah pemilihan fitur dilakukan hanya pada data pelatihan (atau semua data)? Saya telah melalui beberapa diskusi dan makalah seperti Guyon (2003) dan Singhi dan Liu (2006) , tetapi masih tidak yakin tentang jawaban yang benar.
Pengaturan percobaan saya adalah sebagai berikut:
- Dataset: 50-kontrol sehat & 50-pasien penyakit (cca 200 fitur yang dapat relevan dengan prediksi penyakit).
- Tugasnya adalah untuk mendiagnosis penyakit berdasarkan fitur yang tersedia.
Apa yang saya lakukan adalah
- Ambil seluruh dataset dan lakukan pemilihan fitur (FS). Saya hanya menyimpan fitur yang dipilih untuk diproses lebih lanjut
- Berpisah untuk menguji dan melatih, mengklasifikasikan kereta menggunakan data kereta dan fitur yang dipilih. Kemudian, gunakan classifier untuk menguji data (sekali lagi hanya menggunakan fitur yang dipilih). Validasi Leave-one-out digunakan.
- memperoleh akurasi klasifikasi
- Rata-rata: ulangi 1) -3) N kali. (100).
Saya setuju bahwa melakukan FS pada seluruh dataset dapat menimbulkan beberapa bias, tetapi pendapat saya adalah bahwa itu "rata-rata keluar" selama rata-rata (langkah 4). Apakah itu benar? (Varians akurasi adalah )
1 Guyon, I. (2003) "Pengantar Variabel dan Pemilihan Fitur", Jurnal Penelitian Pembelajaran Mesin, Vol. 3, hal. 1157-1182
2 Singhi, SK dan Liu, H. (2006) "Fitur Subset Seleksi Bias untuk Pembelajaran Klasifikasi", Prosiding ICML '06 Prosiding konferensi internasional ke-23 tentang pembelajaran mesin, hal. 849-856