Saya telah membangun classifier regresi logistik yang sangat akurat pada data saya. Sekarang saya ingin lebih mengerti mengapa itu bekerja dengan baik. Secara khusus, saya ingin memberi peringkat fitur mana yang memberikan kontribusi terbesar (fitur mana yang paling penting) dan, idealnya, menghitung seberapa banyak setiap fitur berkontribusi pada akurasi model keseluruhan (atau sesuatu dalam nada ini). Bagaimana saya melakukan ini?
Pikiran pertama saya adalah memberi peringkat berdasarkan koefisien, tetapi saya kira ini tidak benar. Jika saya memiliki dua fitur yang sama-sama berguna, tetapi penyebaran yang pertama sepuluh kali lebih besar dari yang kedua, maka saya berharap yang pertama menerima koefisien yang lebih rendah daripada yang kedua. Apakah ada cara yang lebih masuk akal untuk mengevaluasi pentingnya fitur?
Perhatikan bahwa saya tidak mencoba memahami seberapa besar perubahan kecil dalam fitur mempengaruhi probabilitas hasilnya. Sebaliknya, saya mencoba memahami betapa berharganya setiap fitur, dalam hal membuat pengklasifikasi menjadi akurat. Juga, tujuan saya bukan untuk melakukan pemilihan fitur atau membuat model dengan fitur yang lebih sedikit, tetapi untuk mencoba memberikan "kemampuan menjelaskan" untuk model yang dipelajari, sehingga pengklasifikasi tidak hanya kotak hitam buram.