Saya mencoba menyelesaikan tugas regresi. Saya menemukan bahwa 3 model bekerja dengan baik untuk subset data yang berbeda: LassoLARS, SVR dan Gradient Tree Boosting. Saya perhatikan bahwa ketika saya membuat prediksi menggunakan ketiga model ini dan kemudian membuat tabel 'output nyata' dan output dari 3 model saya, saya melihat bahwa setiap kali setidaknya salah satu model benar-benar dekat dengan output yang sebenarnya, meskipun 2 lainnya bisa relatif jauh.
Ketika saya menghitung kesalahan seminimal mungkin (jika saya mengambil prediksi dari prediktor 'terbaik' untuk setiap contoh pengujian) saya mendapatkan kesalahan yang jauh lebih kecil daripada kesalahan dari model mana pun saja. Jadi saya berpikir untuk mencoba menggabungkan prediksi dari 3 model berbeda ini menjadi semacam ansambel. Pertanyaannya adalah, bagaimana cara melakukannya dengan benar? Ketiga model saya dibuat dan disetel menggunakan scikit-learn, apakah ia menyediakan semacam metode yang dapat digunakan untuk mengemas model ke dalam ansambel? Masalahnya di sini adalah bahwa saya tidak ingin hanya prediksi rata-rata dari ketiga model, saya ingin melakukan ini dengan pembobotan, di mana pembobotan harus ditentukan berdasarkan sifat-sifat contoh tertentu.
Bahkan jika scikit-belajar tidak menyediakan fungsionalitas seperti itu, akan lebih baik jika seseorang tahu bagaimana properti menangani tugas ini - mencari tahu bobot masing-masing model untuk setiap contoh dalam data. Saya pikir itu mungkin dilakukan oleh regressor terpisah yang dibangun di atas semua 3 model ini, yang akan mencoba menghasilkan bobot optimal untuk masing-masing dari 3 model, tetapi saya tidak yakin apakah ini adalah cara terbaik untuk melakukan ini.