Pentingnya Fitur / Dampak untuk Prediksi Individual

8

Pada level model, untuk menilai kontribusi / kepentingan prediktor, kita dapat menggunakan:

Model Teknik Khusus - mis. Kemurnian (Indeks Gini) untuk model berbasis pohon, koefisien model jika dapat diterapkan, dll.
Model Teknik Independen - misalnya Pentingnya Fitur Permutasi, Ketergantungan Sebagian, dll.

Apa yang tidak disampaikan ini adalah untuk prediksi tertentu (katakanlah klasifikasi biner yang memberikan kemungkinan 92% keanggotaan kelas 1) apa yang paling "berpengaruh" dalam membuat prediksi itu.

Setelah memikirkan masalah ini sedikit, menurut saya ada beberapa pendekatan yang bisa diambil:

Model Teknik Khusus - misalnya koefisien model linier yang berlaku, teknik seperti yang dijelaskan di sini untuk mengatakan XGBoost ( https://medium.com/applied-data-science/new-r-package-the-xgboost-explainer-51dd7d1aa211 )
Model Independen Teknik - misalnya semacam "metode perturbation" mirip dengan Partial Dependence untuk memahami bagaimana prediksi berubah ketika kita mengganggu prediktor dan mungkin model itu ?, atau teknik seperti LIME dijelaskan dalam makalah ini ( https://arxiv.org/ pdf / 1602.04938.pdf dan https://github.com/marcotcr/lime ), teknik Permutasi Penting yang dimodifikasi?

Menurut saya pendekatan yang paling berharga adalah teknik model independen mengingat sifat agak "kotak hitam" dari banyak algoritma, dan memberikan kemampuan untuk menafsirkan algoritma dan teknik baru dan baru.

Salah satu metode naif, dijelaskan di sini ( http://amunategui.github.io/actionable-instights/index.html ) adalah untuk mengambil setiap prediktor, "menetralkan" dampaknya dengan mengatakan merusak mean "populasi", dan menjalankan prediksi lagi mendapatkan perbedaan antara prediksi asli dan versi yang dinetralkan memberikan ukuran penting. Ini sepertinya kasus khusus dari metode "perturbation" yang diisyaratkan di atas. Beberapa kekurangan yang saya lihat dalam hal ini adalah bahwa 1) tampaknya menyiratkan bahwa prediksi yang memiliki "rata-rata" (atau setara) dari setiap fitur tentu merupakan prediksi "menengah", dan 2) fitur yang merupakan "sarana" ”(Atau yang setara) tentu tidak berdampak?

Secara umum, teknik apa pun harus menjelaskan:

Cara menangani berbagai tipe data (numerik, kategorikal, dll.)
Cara menangani data yang hilang
Bagaimana menangani kepentingan bersyarat mungkin (yaitu bahwa prediktor mungkin hanya penting berpasangan dll.)
Efisiensi komputasi (apakah benar-benar praktis untuk menjalankan prediksi kali di mana adalah jumlah prediktor, atau untuk metode gangguan mana adalah jumlah prediksi per prediktor, dll.) $p$ $p$ $kp$ $k$

Dengan pemikiran longgar dan mungkin salah tentang masalah ini, saya bertanya-tanya pendekatan apa terhadap masalah yang orang sadari, telah pertimbangkan, telah digunakan, akan disarankan dll.?

machine-learning predictive-models

— membuka-kotak-hitam
sumber

8

Topik yang Anda bicarakan dikenal sebagai penjelasan model atau interpretasi model dan topik yang cukup aktif dalam penelitian. Gagasan umum adalah untuk mencari tahu, fitur mana yang berkontribusi pada model, dan mana yang tidak.

Anda telah menyebutkan beberapa teknik populer, seperti Partial Dependence Plots (PDP) atau LIME. Dalam PDP, pengaruh nilai fitur ke output model ditampilkan dengan membuat instance baru dari data yang memiliki nilai fitur yang dimodifikasi dan memperkirakannya oleh model. LIME menciptakan pendekatan lokal dari model dengan contoh pengambilan sampel di sekitar contoh yang diminta dan belajar model yang lebih sederhana, lebih dapat ditafsirkan.

Dalam metode naif yang Anda jelaskan, dampak fitur dinetralkan dengan menyetelnya ke mean populasi. Anda benar sekali, bahwa ini bukan metode yang tepat, karena prediksi nilai rata-rata mungkin bukan prediksi rata-rata. Juga, itu tidak mencerminkan distribusi fitur dan tidak berfungsi untuk atribut kategori.

Robnik-Sikonja dan Kononenko [1] mengatasi masalah ini. Gagasan dasarnya adalah sama: perbedaan prediksi antara instance yang tidak berubah, dan instance dengan fitur yang dinetralkan. Namun, alih-alih mengambil nilai rata-rata untuk menghilangkan dampak fitur, mereka membuat beberapa salinan contoh, masing-masing dengan nilai yang berbeda. Untuk nilai kategorikal , mereka mengulangi semua kategori yang mungkin; untuk nilai numerik , mereka mengelompokkan data menjadi nampan. Mesin virtual yang terdekomposisi ditimbang oleh frekuensi nilai fitur dalam data. Data yang hilang dapat diabaikan dengan menggunakan pengklasifikasi yang dapat menanganinya, atau memasukkannya, misalnya dengan menetapkan nilai ke rata-rata. Kepentingan bersyarattelah dibahas dalam publikasi kedua oleh Strumbelj et al [2]. Mereka memperluas pendekatan asli dengan tidak hanya membuat contoh terurai dari satu fitur, tetapi mengamati bagaimana prediksi berubah untuk setiap subset dari set daya dari nilai fitur. Ini tentu saja komputasi sangat mahal (karena mereka menyebut diri mereka dan mencoba untuk meningkatkan dengan pengambilan sampel yang lebih cerdas di Strumbelj dan Kononenko [3]).

Omong-omong: untuk data biner, masalah ini menjadi lebih mudah, karena Anda hanya perlu membandingkan prediksi antara atribut yang ada dan yang tidak ada . Martens dan Provost [4] mendiskusikan hal ini untuk klasifikasi dokumen.

Pendekatan lain untuk menemukan kelompok fitur yang bermakna telah diusulkan oleh Andreas Henelius di [5] dan [6]. Gagasan algoritma GoldenEye-nya adalah untuk mengubah data di dalam kelas dan grup fitur. Bayangkan tabel data di mana setiap baris mewakili sebuah instance dan setiap kolom adalah fitur. Di setiap kolom, semua baris yang berbagi kelas yang sama diizinkan. Fitur dikelompokkan, yaitu diijinkan bersama. Jika klasifikasi pada data yang diijinkan sangat berbeda (lebih buruk) dari data asli, pengelompokan saat ini tidak mencerminkan pengelompokan yang sebenarnya. Lihat publikasi, lebih baik dijelaskan di sana. Pendekatan ini menjadi mahal secara komputasi juga.

Saya juga ingin merujuk ke publikasi oleh Josua Krause [7], [8]. Dia mengembangkan alur kerja analitik visual interaktif untuk analisis masalah klasifikasi berbasis instance biner, termasuk PDP yang ditingkatkan. Mereka ditulis dengan baik dan bacaan yang menarik.

[1] Robnik-Šikonja, M. (2004, September). Memperbaiki hutan acak. Dalam konferensi Eropa tentang pembelajaran mesin (hlm. 359-370). Springer, Berlin, Heidelberg.

[2] Štrumbelj, E., Kononenko, I., & Šikonja, MR (2009). Menjelaskan klasifikasi instance dengan interaksi subset nilai fitur. Rekayasa Data & Pengetahuan, 68 (10), 886-904.

[3] Štrumbelj, E., & Kononenko, I. (2014). Menjelaskan model prediksi dan prediksi individual dengan kontribusi fitur. Sistem pengetahuan dan informasi, 41 (3), 647-665.

[4] Martens, D., & Provost, F. (2013). Menjelaskan klasifikasi dokumen berbasis data.

[5] Henelius, A., Puolamäki, K., Boström, H., Asker, L., & Papapetrou, P. (2014). Mengintip kotak hitam: menjelajahi pengklasifikasi dengan pengacakan. Penambangan data dan penemuan pengetahuan, 28 (5-6), 1503-1529. #

[6] Henelius, A., Puolamäki, K., Karlsson, I., Zhao, J., Asker, L., Boström, H., & Papapetrou, P. (2015, April). Goldeneye ++: Melihat lebih dekat ke dalam kotak hitam. Dalam Simposium Internasional tentang Pembelajaran Statistik dan Ilmu Data (hal. 96-105). Springer, Cham.

[7] Krause, J., Perer, A., & Ng, K. (2016, Mei). Berinteraksi dengan prediksi: Inspeksi visual model pembelajaran mesin kotak hitam. Dalam Prosiding Konferensi CHI 2016 tentang Faktor Manusia dalam Sistem Komputasi (hlm. 5686-5697). ACM.

[8] Krause, J., Dasgupta, A., Swartz, J., Aphinyanaphongs, Y., & Bertini, E. (2017). Alur Kerja untuk Diagnostik Visual Pengklasifikasi Biner menggunakan Penjelasan Instance-Level. arXiv preprint arXiv: 1705.01968.

— tsabsch
sumber

Sungguh jawaban yang brilian, dan sejalan dengan banyak pemikiran saya tentang topik ini. Terima kasih banyak atas waktu dan keahlian Anda. Referensi sangat berguna.

— membuka-kotak-hitam

2

+1 Makalah Štrumbelj & Kononenko 2014 tidak mendapatkan pengakuan yang layak dari jarak jauh. Pendekatan teoretis permainan mereka seperti " WOW! "

— usεr11852

0

Dua metode lain yang layak disebutkan di sini adalah:

1) Algoritma SHAP Lundberg & Lee , perpanjangan dari pendekatan teori permainan Štrumbelj & Kononenko yang mereka klaim menyatukan LIME dan sejumlah tindakan penting lokal lainnya; dan

2) Metode kontrafaktual Wachter et al. , Berdasarkan jaringan permusuhan generatif.

Kedua metode memiliki kelebihan dan kekurangan. SHAP sangat cepat dan dilengkapi dengan implementasi Python yang mudah digunakan . Sayangnya, bagaimanapun, selalu membandingkan poin terhadap data centroid, yang mungkin tidak kontras yang relevan dalam beberapa kasus. Juga, seperti LIME dan sejumlah algoritma lainnya, ia mengasumsikan (atau menegakkan) linearitas lokal, yang dapat menyebabkan hasil yang tidak stabil atau tidak informatif ketika kasus minat kami berada di dekat wilayah nonlinear yang jelas dari batas keputusan atau permukaan regresi.

Solusi Wachter et al. Lebih fleksibel dalam hal ini, penyimpangan menyegarkan dari apa yang disebut Lundberg & Lee paradigma "atribusi fitur tambahan". Saya tidak mengetahui adanya implementasi open source. Biaya tambahan pelatihan GAN juga bisa sangat sulit untuk beberapa set data.

— dswatson
sumber