Fitur peringkat dalam regresi logistik

Saya menggunakan Regresi Logistik. Saya memiliki enam fitur, saya ingin tahu fitur-fitur penting dalam pengklasifikasi ini yang lebih memengaruhi hasil daripada fitur lainnya. Saya menggunakan Penguatan Informasi tetapi tampaknya itu tidak bergantung pada classifier yang digunakan. Apakah ada metode untuk memeringkat fitur sesuai dengan kepentingannya berdasarkan klasifikasi tertentu (seperti Regresi Logistik)? bantuan apa pun akan sangat dihargai.

— BlueGirl
sumber

Regresi logistik bukan penggolong. Harap tulis ulang pertanyaan Anda untuk mencerminkan bahwa regresi logistik adalah model estimasi probabilitas langsung.

— Frank Harrell

Selain hal yang dikemukakan oleh FrankHarrell, apakah Anda melihat nilai dari koefisien estimasi Anda? Ini jelas bukan cara terbaik untuk menentukan peringkat fitur tetapi dapat memberi Anda titik awal.

p

$p$

— usεr11852

Tentu, regresi logistik memperkirakan probabilitas dan tidak secara eksplisit mengklasifikasikan hal-hal, tetapi siapa yang peduli? Tujuannya adalah untuk menentukan kelas mana yang paling mungkin, dan tidak ada yang salah dengan menyebutnya classifier jika untuk itulah Anda menggunakannya.

— dsaxton

Jawaban:

Saya pikir jawaban yang Anda cari mungkin adalah algoritma Boruta . Ini adalah metode pembungkus yang secara langsung mengukur pentingnya fitur dalam arti "semua relevansi" dan diimplementasikan dalam paket R , yang menghasilkan plot yang bagus seperti di mana pentingnya fitur apa pun pada sumbu y dan dibandingkan dengan null diplot dengan warna biru di sini. Posting blog ini menjelaskan pendekatannya dan saya sarankan Anda membacanya sebagai intro yang sangat jelas.

— babelproofreader
sumber

Saran yang bagus (+1). Saya pikir ini sedikit berlebihan untuk aplikasi ini tetapi tambahan yang bagus. Saya pasti menghargai bahwa itu akan melakukannya dengan baik di

situasi. Apakah Anda tahu studi tinjauan komparatif mana yang dibandingkan dengan algoritma klasifikasi lainnya?

p >> n

$p >> n$

— usεr11852

@ usεr11852 Tidak, saya tidak. Saya baru saja menemukan ini sendiri dalam seminggu terakhir ini.

— babelproofreader

Hmmm ... OK, Boruta tampaknya sangat menjanjikan tetapi saya selalu skeptis tentang algoritma baru yang hebat sampai saya melihat mereka sebagai bagian dari studi yang lebih besar dan melihat kasus-kasus di mana mereka gagal untuk unggul ( tidak ada teorema makan siang gratis ).

— usεr11852

Ide yang menarik tetapi tidak terkait dengan regresi logistik.

— Frank Harrell

"Boruta adalah metode pemilihan fitur, bukan metode pemeringkatan fitur" Lihat FAQ di beranda paket

— mantap

Untuk mulai memahami cara membuat peringkat variabel berdasarkan pentingnya model regresi, Anda dapat mulai dengan regresi linier. Pendekatan populer untuk menentukan peringkat kepentingan variabel dalam model regresi linier adalah menguraikan menjadi kontribusi yang dikaitkan dengan masing-masing variabel. Tetapi variabel penting tidak langsung dalam regresi linier karena korelasi antar variabel. Lihat dokumen yang menjelaskan metode PMD (Feldman, 2005) [ 3 ]. Pendekatan populer lainnya adalah rata-rata pemesanan (LMG, 1980) [ 2 ]. $R^2$

Tidak ada banyak konsensus mengenai bagaimana cara memeringkat variabel untuk regresi logistik. Tinjauan yang baik dari topik ini diberikan dalam [ 1 ], ini menjelaskan adaptasi dari regresi relatif penting teknik menggunakan Pseudo- untuk regresi logistik. $R^2$

Daftar pendekatan populer untuk menentukan peringkat fitur penting dalam model regresi logistik adalah:

Korelasi parsial semu logistik (menggunakan Pseudo- ) $R^2$
Kecukupan: proporsi log model lengkap kemungkinan yang dapat dijelaskan oleh masing-masing prediktor secara individual
Konkordansi: Menunjukkan kemampuan model untuk membedakan antara variabel respons positif dan negatif. Model terpisah dibangun untuk setiap prediktor dan skor pentingnya adalah probabilitas yang diprediksi dari positif sejati berdasarkan pada prediktor itu sendiri.
Nilai informasi: Nilai informasi mengukur jumlah informasi tentang hasil yang diperoleh dari suatu alat prediksi. Ini didasarkan pada analisis masing-masing prediktor pada gilirannya, tanpa memperhitungkan prediktor lain.

Referensi:

— Sandeep S. Sandhu
sumber

min_{w, b} \sum_{i = 1}^{n} \log (1 + \exp (- y_{i} f_{w, b} (x_{i}))) + λ {‖ w ‖}^{2}

$\mathop {\min }\limits_{{\bf{w}},b} \sum\limits_{i = 1}^n {\log \left( {1 + \exp \left( { - {y_i}{f_{{\bf{w}},b}}({x_i})} \right)} \right) + \lambda {{\left\| {\bf{w}} \right\|}^2}}$

x_{i}

$x_i$

y_{i}

$y_i$

i

$i$

w

$\mathbf{w}$

b

$b$

f_{w, b} (x_{i})

${{f_{w,b}}({x_i})}$

Dengan asumsi semua dinormalisasi, misalnya dengan membagi dengan besarnya , cukup mudah untuk melihat variabel mana yang lebih penting: variabel yang lebih besar dari yang lain atau (di sisi negatif) ) lebih kecil dari yang lain. Mereka paling mempengaruhi kerugian. $\mathbf{x}$ $\mathbf{x}$

Jika Anda ingin menemukan variabel yang benar-benar penting dan dalam prosesnya tidak keberatan mengeluarkan sedikit pun, Anda dapat mengatur fungsi kerugian Anda: $\ell_1$

min_{w, b} \sum_{i = 1}^{n} \log (1 + \exp (- y_{i} f_{w, b} (x_{i}))) + λ | w |

$\mathop {\min }\limits_{{\bf{w}},b} \sum\limits_{i = 1}^n {\log \left( {1 + \exp \left( { - {y_i}{f_{{\bf{w}},b}}({x_i})} \right)} \right) + \lambda \left| {\bf{w}} \right|}$

Derivatif atau regulator cukup mudah, jadi saya tidak akan menyebutkannya di sini. Dengan menggunakan bentuk regularisasi ini dan sesuai akan memberlakukan elemen-elemen yang kurang penting dalam menjadi nol dan yang lainnya tidak. $\lambda$ $\mathbf{w}$

Saya harap ini membantu. Tanyakan apakah Anda memiliki pertanyaan lebih lanjut.

— hal84
sumber

LR bukan skema klasifikasi. Setiap penggunaan klasifikasi datang sebagai langkah pasca estimasi setelah mendefinisikan fungsi utilitas / biaya. Juga, OP tidak bertanya tentang estimasi kemungkinan maksimum yang dikenakan sanksi. Untuk memberikan bukti untuk kepentingan relatif variabel dalam regresi, sangat mudah untuk menggunakan bootstrap untuk mendapatkan batas kepercayaan untuk jajaran informasi prediktif tambahan yang disediakan oleh masing-masing prediktor. Sebuah contoh muncul di Bab 4 dari Strategi Pemodelan Regresi yang catatan online dan kode R tersedia di biostat.mc.vanderbilt.edu/RmS#Materials

— Frank Harrell

Prof Harrell, tolong. Jelas kami mendekati ini dari dua sisi yang berbeda. Anda dari statistik dan saya dari pembelajaran mesin. Saya menghormati Anda, penelitian Anda dan karier Anda tetapi Anda sangat bebas untuk merumuskan jawaban Anda sendiri dan membiarkan OP memutuskan, mana yang ia anggap sebagai jawaban yang lebih baik untuk pertanyaannya. Saya tertarik untuk belajar, jadi tolong ajari saya pendekatan Anda tetapi jangan membuat saya membeli buku Anda.

— pAt84

Saya hanya akan mencatat bahwa regresi logistik dikembangkan oleh ahli statistik DR Cox pada tahun 1958, beberapa dekade sebelum pembelajaran mesin ada. Penting juga untuk dicatat bahwa "fungsi kerugian" (lebih baik disebut fungsi obyektif mungkin?) Yang Anda rumuskan tidak memiliki hubungan apa pun dengan klasifikasi. Dan apa yang tersirat pada Anda bahwa catatan saya yang luas dan file audio tersedia secara online dengan semua informasi yang saya rujuk berharga apa saja?

— Frank Harrell

Saya membarui kedua komentar awal, karena keduanya meningkatkan poin yang valid. Kemudian komentar agak seperti pertengkaran kecil-kecilan kepada saya ...

— usεr11852

PS Mencoba cara yang lebih jelas untuk mengatakan ini, mengoptimalkan prediksi / estimasi menghasilkan keputusan yang optimal karena fungsi utilitas diterapkan pada langkah kedua dan dibiarkan tidak terkait dengan prediktor. Mengoptimalkan prediksi / estimasi tidak mengoptimalkan klasifikasi dan sebaliknya. Mengoptimalkan jumlah klasifikasi dengan menggunakan fungsi utilitas aneh yang disesuaikan dengan dataset yang ada dan mungkin tidak berlaku untuk dataset baru. Orang yang benar-benar ingin mengoptimalkan klasifikasi (tidak disarankan) dapat menggunakan metode yang mem-bypass estimasi / prediksi sekaligus.

— Frank Harrell