Ini terdengar seperti masalah yang cocok untuk laso dan teman-teman yang melakukan penyusutan dan pemilihan variabel. Unsur-unsur Pembelajaran Statistik menggambarkan laso dan jaring elastis untuk regresi dan, apa yang lebih relevan untuk masalah ini, regresi logistik.
Para penulis buku telah membuat implementasi yang efisien dari laso dan jaring elastis tersedia sebagai paket R yang disebut glmnet . Saya sebelumnya telah menggunakan paket ini untuk analisis data biner dengan matriks data sekitar 250.000 baris, meskipun kolomnya lebih sedikit, tetapi sebenarnya menjalankan regresi semua kolom terhadap semua kolom lainnya. Jika matriks data juga jarang, implementasi dapat mengambil keuntungan dari itu juga, dan saya percaya metode ini benar-benar dapat bekerja untuk set data lengkap OPs. Berikut adalah beberapa komentar tentang laso:
- ℓ1
- Pemilihan parameter tuning sering dilakukan dengan cross-validation, tetapi bahkan tanpa langkah cross-validation, metode ini mungkin dapat memberikan urutan yang baik dari variabel yang dipilih yang diindeks oleh parameter penalti.
- Pada sisi negatifnya, untuk pemilihan variabel, adalah bahwa laso dapat menjadi tidak stabil dalam pemilihan variabel, khususnya, jika mereka agak berkorelasi. Penalti bersih yang lebih umum diciptakan untuk memperbaiki ketidakstabilan ini, tetapi itu tidak menyelesaikan masalah sepenuhnya. Lasso adaptif adalah ide lain untuk meningkatkan pemilihan variabel untuk laso.
- Seleksi Stabilitas adalah metode umum yang disarankan oleh Meinshausen dan Bühlmann untuk mencapai stabilitas yang lebih besar dari variabel yang dipilih dengan metode seperti laso. Ini membutuhkan sejumlah kecocokan untuk subsampel set data dan, dengan demikian, jauh lebih menuntut komputasi.
- Cara berpikir yang masuk akal dari laso adalah sebagai metode untuk menghasilkan satu set model "baik" satu dimensi mulai dari model variabel tunggal hingga model yang lebih rumit (tidak harus mencakup semua variabel) yang ditentukan oleh parameter penalti. Sebaliknya, filter univariat menghasilkan pilihan, atau pemesanan, hanya model variabel tunggal yang baik.
Untuk Python ada implementasi dalam scikit-belajar metode seperti laso dan jaring elastis.