Mengapa ansambel sangat efektif dan tidak masuk akal

14

Tampaknya menjadi aksiomatis bahwa ansambel peserta didik mengarah ke hasil model terbaik - dan itu menjadi jauh lebih jarang, misalnya, untuk model tunggal untuk memenangkan kompetisi seperti Kaggle. Apakah ada penjelasan teoretis mengapa ansambel sangat efektif?

machine-learning data-mining predictive-modeling

— Robert de Graaf
sumber

1

Dugaan saya adalah The Central Limit Theorem tapi saya tidak punya alasan.

13

Untuk model tertentu Anda memasukkan data, pilih fitur, pilih hyperparameters dan sebagainya. Dibandingkan dengan kenyataan itu membuat tiga jenis kesalahan:

Bias (karena kompleksitas model yang terlalu rendah, bias pengambilan sampel dalam data Anda)
Variance (karena noise pada data Anda, overfitting dari data Anda)
Keacakan realitas yang Anda coba prediksi (atau kurangnya fitur prediktif dalam dataset Anda)

Ensemble rata-rata mengeluarkan sejumlah model ini. Bias karena bias pengambilan sampel tidak akan diperbaiki karena alasan yang jelas, itu dapat memperbaiki beberapa bias kompleksitas model, namun kesalahan varians yang dibuat sangat berbeda dari model yang berbeda. Terutama model berkorelasi rendah membuat kesalahan yang sangat berbeda dalam bidang ini, model tertentu berkinerja baik di bagian tertentu dari ruang fitur Anda. Dengan rata-rata keluar model ini Anda mengurangi varians ini sedikit. Inilah sebabnya ansambel bersinar.

— Jan van der Vegt
sumber

6

Jawaban yang dipilih sangat fantastis, tetapi saya ingin menambahkan dua hal:

Telah diamati bahwa rata-rata prediksi manusia memberikan prediksi yang lebih baik daripada prediksi individu. Ini dikenal sebagai hikmat orang banyak . Sekarang, Anda dapat berargumen bahwa itu karena beberapa orang memiliki informasi yang berbeda, sehingga Anda secara efektif meratakan informasi. Tapi tidak, ini berlaku bahkan untuk tugas-tugas seperti menebak jumlah kacang dalam botol. Saya berhipotesis ada hubungannya dengan beberapa alasan yang diberikan di atas tentang model data mining.
Beberapa teknik seperti metode putus di jaringan saraf (di mana dalam setiap iterasi selama pelatihan Anda hanya menggunakan sepotong jaringan saraf Anda) memberikan hasil yang mirip dengan ansambel jaringan saraf. Alasannya adalah bahwa Anda secara efektif memaksa node untuk melakukan pekerjaan prediktor yang sama dengan node lainnya, secara efektif membuat meta-ansambel. Saya mengatakan ini untuk menegaskan bahwa kita mungkin dapat memperkenalkan beberapa keunggulan ansambel dalam model tradisional.

— Ricardo Cruz
sumber

6

Ensemble menang berdasarkan prediksi karena alasan teoretis dan praktis.

Ada teori fundamental tentang peramalan optimal, jika kita bermaksud memprediksi peristiwa berikutnya secara berurutan berdasarkan pengetahuan tentang peristiwa sebelumnya. Prediksi Solomonoff (Solomonoff 1964) terbukti optimal dalam beberapa hal, termasuk bahwa ia "akan belajar untuk memprediksi dengan benar setiap urutan yang dapat dihitung dengan hanya jumlah minimum data absolut." (Hutter, Legg & Vitanyi 2007) Prediktor Solomonoff menimbang semua program yang kompatibel dengan data yang ada, sesuai dengan kompleksitas Kolmogorov program dan probabilitas yang diberikan program pada data sejauh ini, menggabungkan filosofi Epicurean ("simpan semua teori") dan Ockham ("lebih suka teori sederhana") dalam kerangka Bayesian.

Sifat optimalitas prediksi Solomonoff menjelaskan temuan kuat yang Anda lihat: rata-rata atas model, sumber, atau pakar meningkatkan prediksi, dan prediksi rata-rata mengungguli bahkan prediktor tunggal terbaik. Berbagai metode ansambel yang terlihat dalam praktik dapat dilihat sebagai perkiraan yang dapat dihitung untuk prediksi Solomonoff - dan beberapa seperti MML (Wallace 2005) secara eksplisit mengeksplorasi ikatan, meskipun sebagian besar tidak.

Wallace (2005) mencatat bahwa prediktor Solomonoff tidak pelit - ia menyimpan kumpulan model yang tak terbatas - tetapi sebagian besar daya prediktif pasti jatuh ke seperangkat model yang relatif kecil. Dalam beberapa domain model terbaik tunggal (atau keluarga model yang hampir tidak dapat dibedakan) dapat menjelaskan sebagian besar daya prediksi dan mengungguli ansambel generik, tetapi dalam domain kompleks dengan sedikit teori kemungkinan besar tidak ada keluarga yang menangkap sebagian besar probabilitas posterior, dan karenanya rata-rata kandidat yang masuk akal harus meningkatkan prediksi. Untuk memenangkan hadiah Netflix, tim Bellkor memadukan lebih dari 450 model (Koren 2009).

Manusia biasanya mencari penjelasan yang bagus: dalam domain "teori tinggi" seperti fisika, ini bekerja dengan baik. Memang jika mereka menangkap dinamika kausal yang mendasarinya, mereka seharusnya hampir tidak terkalahkan. Tetapi ketika teori yang tersedia tidak sesuai dengan fenomena (katakanlah, rekomendasi film atau geopolitik), model tunggal akan berkinerja buruk: semua tidak lengkap, jadi tidak ada yang mendominasi. Demikianlah penekanan terakhir pada ansambel (untuk pembelajaran mesin) dan Wisdom of the Crowds (untuk para ahli), dan keberhasilan program-program seperti IARPA ACE dan secara khusus Good Judgment Project (Tetlock & Gardiner 2015).

Referensi

M. Hutter, S. Legg, dan P. Vitanyi, "Probabilitas algoritmik," Scholarpedia, vol. 2, 2007, hal. 2572.
Y. Koren, "Solusi BellKor untuk Hadiah Utama Netflix," 2009.
Solomonoff, Ray (Maret 1964). "Teori Resmi Inferensi Induktif Bagian I" (PDF). Informasi dan Kontrol 7 (1): 1-22. doi: 10.1016 / S0019-9958 (64) 90223-2.
Solomonoff, Ray (Juni 1964). "Teori Resmi Inferensi Induktif Bagian II" (PDF). Informasi dan Kontrol 7 (2): 224–254. doi: 10.1016 / S0019-9958 (64) 90131-7.
PE Tetlock, Keputusan Ahli Politik: Seberapa Baik Itu? Bagaimana Kita Bisa Tahu ?, Princeton University Press, 2005.
Tetlock, PE, & Gardner, D. (2015). Superforecasting: Seni dan Ilmu Prediksi. New York: Crown.
CS Wallace, Statistik dan Inferensi Induktif oleh Panjang Pesan Minimum, Springer-Verlag, 2005.

— ctwardy
sumber