Apa pilihan variabel / fitur yang Anda sukai untuk klasifikasi biner ketika ada lebih banyak variabel / fitur daripada pengamatan dalam set pembelajaran? Tujuannya di sini adalah untuk membahas prosedur pemilihan fitur apa yang mengurangi kesalahan klasifikasi terbaik.
Kita dapat memperbaiki notasi untuk konsistensi: untuk , mari menjadi kumpulan pembelajaran pengamatan dari grup . Jadi adalah ukuran set pembelajaran. Kami menetapkan menjadi jumlah fitur (yaitu dimensi ruang fitur). Misalkan menunjukkan koordinat ke- dari .{ x i 1 , … , x i n i } i n 0 + n 1 = n p x [ i ] i x ∈ R p
Tolong berikan referensi lengkap jika Anda tidak bisa memberikan detailnya.
EDIT (diperbarui terus menerus): Prosedur diusulkan dalam jawaban di bawah ini
- Greedy forward selection Prosedur pemilihan variabel untuk klasifikasi biner
- Eliminasi mundur Prosedur pemilihan variabel untuk klasifikasi biner
- Pemindaian Metropolis / MCMC Prosedur pemilihan variabel untuk klasifikasi biner
- regresi logistik dihukum Prosedur pemilihan variabel untuk klasifikasi biner
Karena ini adalah komunitas wiki, akan ada lebih banyak diskusi dan pembaruan
Saya punya satu komentar: dalam arti tertentu, Anda semua memberikan prosedur yang mengizinkan pemesanan variabel tetapi tidak pemilihan variabel (Anda cukup mengelak tentang cara memilih jumlah fitur, saya kira Anda semua menggunakan validasi silang?) Dapatkah Anda meningkatkan jawaban ke arah ini? (karena ini adalah komunitas wiki Anda tidak perlu menjadi penulis jawaban untuk menambahkan informasi tentang cara memilih jumlah variabel? Saya telah membuka pertanyaan ke arah ini di sini Validasi silang dalam dimensi yang sangat tinggi (untuk memilih jumlah variabel yang digunakan dalam klasifikasi dimensi yang sangat tinggi) )