Saya telah menjadi semacam nihilis ketika datang ke peringkat tingkat kepentingan variabel (dalam konteks model multivarian dari semua jenis).
Seringkali dalam perjalanan pekerjaan saya, saya diminta untuk membantu tim lain menghasilkan peringkat kepentingan variabel, atau menghasilkan peringkat kepentingan variabel dari pekerjaan saya sendiri. Menanggapi permintaan ini, saya mengajukan pertanyaan berikut
Apa yang Anda inginkan dari peringkat kepentingan variabel ini? Apa yang ingin Anda pelajari darinya? Keputusan apa yang ingin Anda gunakan?
Jawaban yang saya terima hampir selalu termasuk dalam salah satu dari dua kategori
- Saya ingin mengetahui pentingnya berbagai variabel dalam model saya dalam memprediksi respons.
- Saya ingin menggunakannya untuk pemilihan fitur, dengan menghapus variabel penting rendah.
Tanggapan pertama adalah tautologis (saya ingin peringkat kepentingan variabel karena saya ingin peringkat kepentingan variabel). Saya harus berasumsi bahwa peringkat ini memenuhi kebutuhan psikologis ketika mengkonsumsi output dari model multivariat. Saya mengalami kesulitan memahami hal ini, karena memeringkat variabel "kepentingan" secara individual tampaknya secara implisit menolak sifat multi-dimensi dari model yang bersangkutan.
Respons kedua pada dasarnya mereduksi menjadi versi informal seleksi mundur , dosa-dosa statistik yang didokumentasikan dengan baik di bagian lain dari CrossValidated.
Saya juga berjuang dengan sifat peringkat kepentingan yang tidak jelas. Tampaknya ada sedikit kesepakatan tentang apa konsep dasar peringkat harus mengukur, memberi mereka rasa yang sangat ad hoc. Ada banyak cara untuk menetapkan skor atau peringkat penting, dan mereka umumnya menderita kekurangan dan peringatan:
- Mereka bisa sangat tergantung algoritma, seperti dalam peringkat pentingnya di hutan dan gbms acak.
- Mereka dapat memiliki varians yang sangat tinggi, berubah secara drastis dengan gangguan pada data yang mendasarinya.
- Mereka dapat sangat menderita dari korelasi dalam input prediksi.
Jadi, dengan semua yang dikatakan, pertanyaan saya adalah, apa saja yang menggunakan statistik peringkat kepentingan variabel valid, atau, apa argumen yang meyakinkan (baik untuk ahli statistik atau awam) untuk kesia-siaan keinginan seperti itu? Saya tertarik pada argumen teoretis umum dan studi kasus, mana yang lebih efektif dalam mengemukakan hal itu.
glmnet
tersedia?