Baru-baru ini, saya menjadi tertarik pada model susun sebagai bentuk pembelajaran ansambel. Secara khusus, saya telah bereksperimen sedikit dengan beberapa dataset mainan untuk masalah regresi. Saya pada dasarnya telah mengimplementasikan individual "level 0" regressor, menyimpan prediksi output masing-masing regressor sebagai fitur baru untuk "meta-regressor" sebagai inputnya, dan menyesuaikan meta-regressor ini pada fitur-fitur baru ini (prediksi dari level 0 regresi). Saya sangat terkejut melihat bahkan sedikit perbaikan pada individu regressor ketika menguji meta-regressor terhadap set validasi.
Jadi, inilah pertanyaan saya: mengapa model susun efektif? Secara intuitif, saya berharap model melakukan susun untuk berkinerja buruk karena tampaknya memiliki representasi fitur yang miskin dibandingkan dengan masing-masing model level 0. Yaitu, jika saya melatih 3 regresor level 0 pada set data dengan 20 fitur, dan menggunakan prediksi regresor level 0 ini sebagai input untuk meta-regressor saya, ini berarti meta-regressor saya hanya memiliki 3 fitur untuk dipelajari. Sepertinya ada lebih banyak informasi yang dikodekan dalam 20 fitur asli yang dimiliki oleh level 0 regressor untuk pelatihan daripada 3 fitur output yang digunakan meta-regressor untuk pelatihan.