Untuk apa peringkat kepentingan variabel berguna?

25

Saya telah menjadi semacam nihilis ketika datang ke peringkat tingkat kepentingan variabel (dalam konteks model multivarian dari semua jenis).

Seringkali dalam perjalanan pekerjaan saya, saya diminta untuk membantu tim lain menghasilkan peringkat kepentingan variabel, atau menghasilkan peringkat kepentingan variabel dari pekerjaan saya sendiri. Menanggapi permintaan ini, saya mengajukan pertanyaan berikut

Apa yang Anda inginkan dari peringkat kepentingan variabel ini? Apa yang ingin Anda pelajari darinya? Keputusan apa yang ingin Anda gunakan?

Jawaban yang saya terima hampir selalu termasuk dalam salah satu dari dua kategori

Saya ingin mengetahui pentingnya berbagai variabel dalam model saya dalam memprediksi respons.
Saya ingin menggunakannya untuk pemilihan fitur, dengan menghapus variabel penting rendah.

Tanggapan pertama adalah tautologis (saya ingin peringkat kepentingan variabel karena saya ingin peringkat kepentingan variabel). Saya harus berasumsi bahwa peringkat ini memenuhi kebutuhan psikologis ketika mengkonsumsi output dari model multivariat. Saya mengalami kesulitan memahami hal ini, karena memeringkat variabel "kepentingan" secara individual tampaknya secara implisit menolak sifat multi-dimensi dari model yang bersangkutan.

Respons kedua pada dasarnya mereduksi menjadi versi informal seleksi mundur , dosa-dosa statistik yang didokumentasikan dengan baik di bagian lain dari CrossValidated.

Saya juga berjuang dengan sifat peringkat kepentingan yang tidak jelas. Tampaknya ada sedikit kesepakatan tentang apa konsep dasar peringkat harus mengukur, memberi mereka rasa yang sangat ad hoc. Ada banyak cara untuk menetapkan skor atau peringkat penting, dan mereka umumnya menderita kekurangan dan peringatan:

Mereka bisa sangat tergantung algoritma, seperti dalam peringkat pentingnya di hutan dan gbms acak.
Mereka dapat memiliki varians yang sangat tinggi, berubah secara drastis dengan gangguan pada data yang mendasarinya.
Mereka dapat sangat menderita dari korelasi dalam input prediksi.

Jadi, dengan semua yang dikatakan, pertanyaan saya adalah, apa saja yang menggunakan statistik peringkat kepentingan variabel valid, atau, apa argumen yang meyakinkan (baik untuk ahli statistik atau awam) untuk kesia-siaan keinginan seperti itu? Saya tertarik pada argumen teoretis umum dan studi kasus, mana yang lebih efektif dalam mengemukakan hal itu.

multiple-regression multivariate-analysis importance

— Matthew Drury
sumber

1

Menggunakan variabel penting (dari beberapa prosedur yang masuk akal) untuk menyaring prediktor yang lemah sepertinya bukan ide yang buruk. Bisakah Anda mengklarifikasi mengapa menurut Anda ini buruk?

— dsaxton

3

Saya kira secara umum saya berpikir bahwa banyak proses statistik tidak didominasi oleh prediktor "penting", karena merupakan akumulasi dari banyak efek kecil. Sebagai contoh, kekuatan regresi ridge dapat dijelaskan olehnya secara eksplisit mengakui struktur ini. Mengatakan dengan cara lain, apa alasan kita harus percaya, apriori, dalam konsep "peramal lemah", dan mengapa kita harus menyaringnya? Dan mengapa kita harus menggunakan prosedur informal untuk melakukannya ketika glmnettersedia?

— Matthew Drury

2

Dalam bidang apa pun di mana kami bukan ahli, kami ingin tahu apa yang penting untuk dikhawatirkan! Banyak buku bisnis dan manajemen tampaknya menjelaskan panjang lebar bahwa Anda mengidentifikasi masalah-masalah penting dan fokus pada mereka (ya memang). Saya menduga bahwa miskomunikasi di sini biasanya dimulai dengan orang-orang non-statistik mengandaikan ada cara untuk mengukur pentingnya dan bahwa itu adalah pekerjaan orang statistik untuk mengetahui bagaimana melakukan itu dan tidak membuat mereka khawatir dengan betapa sulitnya itu. Saya tidak tahu bagaimana menjadi kurang umum, tetapi beberapa diskusi di sini sepertinya kehilangan poin kunci dalam pertanyaan Anda.

— Nick Cox

8

Saya berpendapat bahwa kepentingan variabel adalah konsep yang licin , seperti yang diajukan pertanyaan ini. Jenis respons tautologis pertama yang Anda dapatkan untuk pertanyaan Anda dan harapan yang tidak realistis dari mereka yang akan menafsirkan hasil variabel-penting dalam hal kausalitas, seperti dicatat oleh @DexGroves, perlu sedikit elaborasi.

Namun adil bagi mereka yang akan menggunakan seleksi mundur, bahkan Frank Harrell mengizinkannya sebagai bagian dari strategi pemodelan. Dari halaman 97 dari Strategi Pemodelan Regresi- nya , edisi ke-2 (pernyataan serupa ada di halaman 131 dari catatan kursus terkait ):

Lakukan seleksi terbatas step-down mundur terbatas jika kekikiran lebih penting daripada akurasi.

Namun, potensi penggunaan terbatas seleksi mundur ini adalah langkah 13, langkah terakhir sebelum model akhir (langkah 14). Itu muncul setelah langkah-langkah penting pertama:

Kumpulkan sebanyak mungkin data terkait seakurat mungkin, dengan distribusi luas untuk nilai prediktor ...

Merumuskan hipotesis yang baik yang mengarah pada spesifikasi prediktor kandidat yang relevan dan kemungkinan interaksi ...

Dalam pengalaman saya, orang sering ingin melewati langkah 2, dan membiarkan beberapa prosedur otomatis menggantikan aplikasi cerdas pengetahuan materi pelajaran. Ini dapat menyebabkan beberapa penekanan ditempatkan pada kepentingan variabel.

Model lengkap dari langkah 14 Harrell diikuti oleh 5 langkah selanjutnya untuk validasi dan penyesuaian, dengan langkah terakhir:

Kembangkan penyederhanaan pada model lengkap dengan memperkirakannya hingga tingkat akurasi yang diinginkan.

Seperti jawaban lain telah dicatat, ada masalah aksi, biaya, dan kesederhanaan yang masuk ke dalam aplikasi praktis hasil pemodelan. Sebagai contoh, jika saya mengembangkan biomarker kanker baru yang meningkatkan prognostikasi tetapi biayanya $ 100.000 per tes, mungkin sulit untuk meyakinkan perusahaan asuransi atau pemerintah untuk membayar tes kecuali itu sangat berguna. Jadi tidak masuk akal bagi seseorang untuk ingin fokus pada variabel yang "paling penting," atau untuk menyederhanakan model yang akurat menjadi sesuatu yang agak kurang akurat tetapi lebih mudah atau lebih murah untuk diterapkan.

Tetapi pemilihan variabel dan penyederhanaan model ini harus untuk tujuan tertentu , dan saya pikir di situlah kesulitan muncul. Masalahnya serupa dengan menilai skema klasifikasi semata-mata berdasarkan pada persen kasus yang diklasifikasikan dengan benar. Sama seperti kesalahan klasifikasi yang berbeda dapat memiliki biaya yang berbeda, skema penyederhanaan model yang berbeda dapat memiliki biaya yang berbeda yang seimbang dengan manfaat yang diharapkan.

Jadi saya pikir masalah yang menjadi fokus analis adalah kemampuan memperkirakan dan mengilustrasikan biaya dan manfaat ini secara andal dengan prosedur pemodelan statistik, daripada terlalu mengkhawatirkan konsep abstrak validitas statistik per se. Sebagai contoh, halaman 157-8 dari catatan kelas Harrell yang ditautkan di atas memiliki contoh menggunakan bootstrap untuk menunjukkan keanehan prediktor peringkat dalam kuadrat terkecil; hasil serupa dapat ditemukan untuk set variabel yang dipilih oleh LASSO.

Jika jenis variabilitas dalam pemilihan variabel tidak menghalangi aplikasi praktis tertentu dari model itu OK. Tugasnya adalah memperkirakan berapa banyak dan jenis masalah yang akan menyebabkan penyederhanaan.

— EdM
sumber

2

Ini adalah jawaban yang bagus @EdM dan cukup konsisten dengan pendapat yang saya kembangkan tentang masalah ini. Saya terutama menyukai dua poin Anda bahwa 1) prediktor yang tidak dapat diterima (karena alasan moral, peraturan, atau bisnis) harus disaring sebelum pemodelan, 2) penyederhanaan model akhir harus untuk tujuan khusus yang ditentukan apriori. Ini pada dasarnya adalah poin yang biasanya saya coba selesaikan dengan pertanyaan kepada mitra bisnis saya.

— Matthew Drury

P r (β \neq 0)

$Pr(\beta \ne 0)$

Dengan mengatakan itu, saya masih bertanya-tanya apakah ada beberapa konsep yang mendasari bahwa peringkat pentingnya mencoba untuk menangkap, apakah mereka semua hanya serangan sementara pada masalah statistik yang tidak jelas.

— Matthew Drury

1

@MatthewDrury, Frank Harrell menyediakan satu cara berprinsip untuk mengevaluasi "variabel penting," berdasarkan pada fraksi log-kemungkinan yang dijelaskan oleh masing-masing variabel. Bukan itu yang mungkin dimaksud oleh individu yang kurang canggih dengan ungkapan itu. Seperti Anda, saya telah menggunakan fraksi waktu yang dipilih LASSO setiap prediktor, di antara beberapa sampel bootstrap, sebagai cara terbaik yang dapat saya pikirkan untuk menggambarkan keanehan pemilihan variabel. Itu sebagian besar mendorong saya menjauh dari LASSO dan menuju regresi ridge untuk masalah skala sedang.

— EdM

8

Ini sepenuhnya anekdotal, tetapi saya telah menemukan pentingnya variabel berguna dalam mengidentifikasi kesalahan atau kelemahan dalam GBM.

Variabel kepentingan memberi Anda gambaran cross-sectional besar model yang akan sulit untuk mendapatkan sebaliknya. Variabel yang lebih tinggi dalam daftar melihat lebih banyak aktivitas (apakah mereka lebih 'penting' atau tidak adalah pertanyaan lain). Seringkali prediktor yang berperilaku buruk (misalnya sesuatu yang berpandangan ke depan, atau faktor kardinalitas tinggi) akan meningkat ke puncak.

Jika ada perbedaan besar antara kepentingan variabel intuisi dan pentingnya variabel GBM, biasanya ada beberapa pengetahuan berharga yang bisa diperoleh atau kesalahan yang bisa ditemukan.

Saya akan menambahkan jawaban ketiga untuk "mengapa Anda meminta saya untuk ini?" pertanyaan, yaitu "karena saya ingin memahami apa yang menyebabkan respons saya". Eep.

— Dex Groves
sumber

4

Peringkat kepentingan variabel memiliki peran yang pasti dalam dunia bisnis terapan setiap kali ada kebutuhan untuk memprioritaskan jumlah input yang berpotensi besar untuk suatu proses, proses apa pun. Informasi ini memberikan arahan dalam hal strategi yang terfokus untuk menyerang suatu masalah, bekerja dari yang paling penting hingga yang paling tidak penting, misalnya, pengurangan biaya proses, mengingat bahwa variabel-variabel tersebut leveragable dan tidak tetap atau faktor struktural yang kebal terhadap manipulasi. Pada akhirnya, ini akan menghasilkan semacam tes A / B.

Namun, menurut Anda, Matt, dan seperti peringkat ordinal apa pun, nuansa minor atau perbedaan antara variabel dapat bersifat ambigu atau dikaburkan, melemahkan kegunaannya.

— Mike Hunter
sumber

Saya sepenuhnya setuju dengan kegunaan peringkat variabel dalam banyak kasus bisnis. Namun di sini kekhawatiran 'algoritma berbeda memberikan peringkat berbeda' tetap tidak terselesaikan. Apakah Anda punya saran untuk mengatasinya? Lihat juga pertanyaan saya di sini stats.stackexchange.com/q/251248/71287 dan komentar di bawahnya.

— Aliweb

3

@aliweb Masalah perbedaan tidak memiliki solusi tunggal, tetap, kesatuan. Poin ini sama halusnya dengan perbedaan antara hierarki dan heterarki di mana peringkat global diturunkan, pada kenyataannya, sepenuhnya bersifat lokal dan sementara. Ulasan terbaik literatur tentang kepentingan variabel relatif mungkin milik Ulrike Groemping yang makalahnya cukup komprehensif dengan berbagai metrik yang ada di luar sana. Selain itu, modul dan metode R-nya - RELAMPO - sama ketatnya dengan pendekatan untuk memperkirakan kepentingan relatif seperti yang ada.

— Mike Hunter

3

Saya sepenuhnya setuju dengan Anda dalam sudut pandang teoretis. Tetapi dalam sudut pandang praktis, kepentingan variabel sangat berguna.

Mari kita ambil contoh di mana perusahaan asuransi ingin mengurangi jumlah pertanyaan dalam kuesioner yang mengukur risiko klien mereka. Semakin rumit kuesioner, semakin kecil kemungkinan klien membeli produk mereka. Untuk alasan itu, mereka ingin mengurangi pertanyaan yang kurang berguna ketika mempertahankan tingkat kuantifikasi risiko. Solusinya adalah sering menggunakan variabel penting untuk menentukan pertanyaan mana yang dihapus dari kuesioner (dan memiliki "kurang lebih" prediksi yang sama tentang profil risiko prospek).

— Metariat
sumber

Saya sepenuhnya setuju dengan kegunaan peringkat variabel dalam banyak kasus bisnis. Namun di sini kekhawatiran 'algoritma berbeda memberikan peringkat berbeda' tetap tidak terselesaikan. Apakah Anda punya saran untuk mengatasinya? Lihat juga pertanyaan saya di sini stats.stackexchange.com/q/251248/71287 dan komentar di bawahnya.

— Aliweb

@aliweb: Saya pikir Matthew sudah memberi Anda jawaban yang sangat baik untuk pertanyaan Anda.

— Metariat