Metode terbaik pemilihan fitur untuk regresi nonparametrik


10

Pertanyaan pemula di sini. Saat ini saya sedang melakukan regresi nonparametrik menggunakan paket np di R. Saya memiliki 7 fitur dan menggunakan pendekatan brute force saya mengidentifikasi yang terbaik 3. Tapi, segera saya akan memiliki lebih dari 7 fitur!

Pertanyaan saya adalah apa metode terbaik saat ini untuk pemilihan fitur untuk regresi nonparametrik. Dan yang jika ada paket menerapkan metode. Terima kasih.


1
apa yang Anda maksud dengan "banyak lagi" 100? 1000? 10000? 100000?
robin girard

Mungkin saya akan memiliki urutan 100 fitur. Tapi saya hanya punya beberapa menit untuk membuat keputusan tentang subset fitur terbaik.
jmmcnew

1
Sudahkah Anda mencoba laso atau jaring elastis? paket: laso, glmnet. Metode-metode itu dapat "memilih" beberapa variabel saat bepergian.
deps_stats

Jawaban:


3

Kecuali jika identifikasi variabel yang paling relevan adalah tujuan utama dari analisis, seringkali lebih baik untuk tidak melakukan pemilihan fitur sama sekali dan menggunakan regularisasi untuk mencegah pemasangan yang berlebihan. Pemilihan fitur adalah prosedur yang rumit dan terlalu mudah untuk menyesuaikan kriteria pemilihan fitur karena ada banyak derajat kebebasan. LASSO dan jaring elastis adalah kompromi yang baik, pencapaian sparsity melalui regularisasi daripada melalui pemilihan fitur langsung, sehingga mereka kurang rentan terhadap bentuk over-fitting tertentu.


0

Lasso memang bagus. Hal-hal sederhana seperti memulai dengan tidak ada, dan menambahkannya satu per satu diurutkan berdasarkan 'kegunaan' (melalui cross-validation) juga berfungsi dengan baik dalam praktiknya. Ini kadang-kadang disebut seleksi feedstward stagewise.

Perhatikan bahwa masalah pemilihan subset cukup independen pada jenis klasifikasi / regresi. Hanya saja metode nonparametrik bisa lambat dan karenanya membutuhkan metode seleksi yang lebih cerdas.

Buku 'Unsur-unsur pembelajaran statistik' dari T. Hastie memberikan gambaran yang bagus.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.