Dengan membaca pemodelan statistik yang sangat baik : Dua budaya (Breiman 2001) , kita dapat mengambil semua perbedaan antara model statistik tradisional (misalnya, regresi linier) dan algoritma pembelajaran mesin (misalnya, Bagging, Random Forest, Boosted trees ...).
Breiman mengkritik model data (parametrik) karena didasarkan pada asumsi bahwa pengamatan dihasilkan oleh model formal yang diketahui yang ditentukan oleh ahli statistik, yang mungkin meniru Alam. Di sisi lain, ML algos tidak mengasumsikan model formal dan langsung mempelajari hubungan antara variabel input dan output dari data.
Saya menyadari bahwa Bagging / RF dan Boosting, juga semacam parametrik: misalnya, ntree , mtry dalam RF, laju pembelajaran , fraksi tas , kompleksitas pohon dalam pohon-pohon Boosted Stochastic Gradient Boosted adalah semua parameter penyetelan . Kami juga mengestimasi parameter ini dari data karena kami menggunakan data untuk menemukan nilai optimal dari parameter ini.
Jadi apa bedanya? Apakah model parametrik RF dan Boosted Trees?