Algoritma pembelajaran mesin manakah yang diterima sebagai pertukaran yang baik antara kemampuan menjelaskan dan prediksi?

9

Teks pembelajaran mesin yang menggambarkan algoritma seperti mesin peningkat gradien atau jaringan saraf sering berkomentar bahwa model-model ini bagus dalam prediksi, tetapi ini harus dibayar dengan hilangnya penjelasan atau interpretabilitas. Sebaliknya, pohon keputusan tunggal dan model regresi klasik diberi label baik dalam penjelasan, tetapi memberikan akurasi prediksi (relatif) buruk dibandingkan dengan model yang lebih canggih seperti hutan acak atau SVM. Apakah ada model pembelajaran mesin yang diterima secara umum sebagai mewakili pertukaran yang baik antara keduanya? Apakah ada literatur yang menyebutkan karakteristik algoritma yang memungkinkan mereka untuk dijelaskan? (Pertanyaan ini sebelumnya ditanyakan pada validasi silang)

machine-learning predictive-modeling

— Robert de Graaf
sumber

3

Apakah ada literatur yang menyebutkan karakteristik algoritma yang memungkinkan mereka untuk dijelaskan?

Satu-satunya literatur yang saya ketahui adalah makalah terbaru oleh Ribero, Singh, dan Guestrin. Pertama-tama mereka mendefinisikan keterjelasan dari satu prediksi:

Dengan "menjelaskan prediksi", kami bermaksud menghadirkan artefak teks atau visual yang memberikan pemahaman kualitatif tentang hubungan antara komponen instance (misalnya kata-kata dalam teks, tambalan dalam gambar) dan prediksi model.

Penulis selanjutnya menguraikan apa artinya ini untuk contoh yang lebih konkret, dan kemudian menggunakan gagasan ini untuk menentukan keterjelasan model. Tujuan mereka adalah untuk mencoba dan dengan demikian menambah kemampuan menjelaskan secara artifisial pada model yang tidak transparan, daripada membandingkan keterjelasan metode yang ada. Makalah ini mungkin membantu, karena mencoba untuk memperkenalkan terminologi yang lebih tepat di sekitar gagasan "dapat dijelaskan".

Apakah ada model pembelajaran mesin yang diterima secara umum sebagai mewakili pertukaran yang baik antara keduanya?

Saya setuju dengan @Winter bahwa elastic-net untuk regresi (tidak hanya logistik) dapat dilihat sebagai contoh untuk kompromi yang baik antara akurasi prediksi dan kemampuan menjelaskan.

Untuk jenis aplikasi yang berbeda (seri waktu), kelas metode lain juga memberikan kompromi yang baik: Pemodelan Seri Waktu Struktural Bayesian. Ini mewarisi penjelasan dari pemodelan time series struktural klasik, dan beberapa fleksibilitas dari pendekatan Bayesian. Mirip dengan regresi logistik, kemampuan menjelaskannya dibantu oleh persamaan regresi yang digunakan untuk pemodelan. Lihat makalah ini untuk aplikasi yang bagus dalam pemasaran dan referensi lebih lanjut.

Terkait dengan konteks Bayesian yang baru saja disebutkan, Anda mungkin juga ingin melihat model grafis probabilistik. Keterjelasan mereka tidak bergantung pada persamaan regresi, tetapi pada cara pemodelan grafis; lihat "Model Grafis Probabilistik: Prinsip dan Teknik" oleh Koller dan Friedman untuk ikhtisar yang hebat.

Saya tidak yakin apakah kita dapat merujuk pada metode Bayesian di atas sebagai "pertukaran baik yang diterima secara umum". Mereka mungkin tidak cukup terkenal untuk itu, terutama dibandingkan dengan contoh jaring elastis.

— MightyCurious
sumber

Sekarang saya memiliki lebih banyak kesempatan untuk mempertimbangkan makalah yang ditautkan oleh Ribeiro et al., Saya ingin mengatakan bahwa Bagian 2 'Kasus untuk Penjelasan' berisi sesuatu definisi yang berguna tentang 'dapat dijelaskan', dan melakukan pekerjaan yang layak untuk menguraikan kepentingannya, dan karenanya, layak untuk dibaca secara luas dalam komunitas Ilmu Data.

— Robert de Graaf

Meskipun premis pertanyaan saya tidak diterima di CV, @SeanEaster membantu saya dengan tautan bermanfaat ini: jstage.jst.go.jp/article/bhmk1974/26/1/26_1_29/_article

— Robert de Graaf

3

Apakah ada model pembelajaran mesin yang diterima secara umum sebagai mewakili pertukaran yang baik antara keduanya?

Saya berasumsi bahwa dengan menjadi pandai dalam prediksi Anda berarti dapat menyesuaikan nonlinier hadir dalam data sambil cukup kuat untuk overfitting. Pertukaran antara interpretabilitas dan kemampuan untuk memprediksi nonlinier itu tergantung pada data dan pertanyaan yang diajukan. Tidak ada makan siang gratis dalam sains data dan tidak ada algoritma tunggal yang dapat dianggap sebagai yang terbaik untuk setiap set data (dan hal yang sama berlaku untuk interpretabilitas).

Aturan umum seharusnya adalah semakin banyak algoritma yang Anda tahu semakin baik untuk Anda karena Anda dapat mengadopsi dengan kebutuhan spesifik Anda dengan lebih mudah.

Jika saya harus memilih favorit saya untuk tugas klasifikasi yang sering saya gunakan di lingkungan bisnis saya akan memilih elastis-bersih untuk regresi logistik . Meskipun ada asumsi kuat tentang proses yang menghasilkan data, ia dapat dengan mudah mengadopsi data berkat istilah regularisasi mempertahankan interpretasinya dari regresi logistik dasar.

Apakah ada literatur yang menyebutkan karakteristik algoritma yang memungkinkan mereka untuk dijelaskan?

Saya akan menyarankan Anda untuk memilih buku yang ditulis dengan baik yang menggambarkan algoritma pembelajaran mesin yang umum digunakan dan pro dan kontra mereka dalam skenario yang berbeda. Contoh dari buku tersebut adalah The Elements of Statistics Learning oleh T. Hastie, R. Tibshirani dan J. Friedman

— Musim dingin
sumber

3

TBH itu adalah frustrasi saya pada teks yang tepat - yang menggunakan kata 'ditafsirkan' berkali-kali dalam kaitannya dengan model yang berbeda, dan pada satu tahap mengatakan '... aplikasi data mining memerlukan model yang dapat ditafsirkan. Tidak cukup hanya menghasilkan prediksi (bagian 10.7), tanpa saya dapat menemukan bahan tentang bagaimana mengidentifikasi model yang dapat ditafsirkan - yang mendorong pertanyaan. Meskipun saya dan saya enggan tampil kritis terhadap teks yang begitu dihormati. Demikian pula, makalah TIbshirani yang memperkenalkan daftar LASSO 'dapat ditafsirkan' sebagai salah satu keutamaannya tanpa mengatakan apa yang 'dapat ditafsirkan'.

— Robert de Graaf

1

Mungkin melihat jawaban saya mengenai efektivitas ansambel yang tidak masuk akal, dan pengorbanan pada penjelasan versus prediksi. Minimum Message Length (MML, Wallace 2005) memberikan definisi formal penjelasan dalam hal kompresi data, dan memotivasi harapan bahwa penjelasan pada umumnya sesuai tanpa overfitting, dan penjelasan yang baik menghasilkan prediksi yang baik dan dapat digeneralisasikan. Tetapi juga menyentuh pada teori formal mengapa ansambel akan memprediksi lebih baik - hasil kembali ke (Solomonoff 1964) pada prediksi optimal dan intrinsik untuk sepenuhnya pendekatan Bayesian: berintegrasi pada distribusi posterior, jangan hanya memilih mean, median, atau mode.

— ctwardy
sumber