Pertanyaan ini mungkin terlalu terbuka untuk mendapatkan jawaban yang pasti, tetapi mudah-mudahan tidak.
Algoritma pembelajaran mesin, seperti SVM, GBM, Random Forest dll, umumnya memiliki beberapa parameter gratis yang, di luar beberapa pedoman praktis, perlu disetel ke setiap kumpulan data. Ini umumnya dilakukan dengan semacam teknik re-sampling (bootstrap, CV dll) agar sesuai dengan set parameter yang memberikan kesalahan generalisasi terbaik.
Pertanyaan saya adalah, bisakah Anda melangkah terlalu jauh di sini? Orang-orang berbicara tentang melakukan pencarian kisi-kisi seperti itu, tetapi mengapa tidak memperlakukan ini sebagai masalah pengoptimalan dan menelusuri set parameter yang terbaik? Saya bertanya tentang beberapa mekanisme ini dalam pertanyaan ini , tetapi belum mendapat banyak perhatian. Mungkin pertanyaan itu ditanyakan dengan buruk, tetapi mungkin pertanyaan itu sendiri merupakan pendekatan yang buruk yang biasanya tidak dilakukan orang?
Yang menggangguku adalah kurangnya regularisasi. Saya mungkin menemukan dengan pengambilan sampel ulang bahwa jumlah pohon terbaik untuk tumbuh dalam GBM untuk kumpulan data ini adalah 647 dengan kedalaman interaksi 4, tetapi seberapa yakin saya bahwa ini akan benar untuk data baru (dengan asumsi populasi baru identik dengan set pelatihan)? Dengan tidak ada nilai wajar untuk 'menyusut' ke (atau jika Anda mau, tidak ada informasi sebelumnya yang informatif) pengambilan sampel kembali sepertinya yang terbaik yang bisa kami lakukan. Aku hanya tidak mendengar pembicaraan tentang ini, jadi itu membuatku bertanya-tanya apakah ada sesuatu yang aku lewatkan.
Jelas ada biaya komputasi besar yang terkait dengan melakukan banyak iterasi untuk memeras setiap bit terakhir dari daya prediksi dari model, jadi jelas ini adalah sesuatu yang akan Anda lakukan jika Anda punya waktu / kasar untuk melakukan optimasi dan setiap bit peningkatan kinerja sangat berharga.