Dalam buku PRML Bishop, ia mengatakan bahwa, overfitting adalah masalah dengan Estimasi Kemungkinan Maksimum (MLE), dan Bayesian dapat menghindarinya.
Tapi saya pikir, overfitting adalah masalah lebih banyak tentang pemilihan model, bukan tentang metode yang digunakan untuk melakukan estimasi parameter. Yaitu, misalkan saya memiliki kumpulan data , yang dihasilkan melalui f ( x ) = s i n ( x ) , , sekarang saya mungkin memilih model yang berbeda H i agar sesuai dengan data dan mencari tahu mana yang terbaik. Dan model yang dipertimbangkan adalah model polinomial dengan pesanan berbeda, H 1 adalah pesanan 1, H 2 adalah pesanan 2, H 3 adalah pesanan 9.
Sekarang saya mencoba menyesuaikan data dengan masing-masing dari 3 model, masing-masing model memiliki parameternya, dilambangkan sebagai w i untuk H i .
Menggunakan ML, saya akan memiliki estimasi titik parameter model , dan H 1 terlalu sederhana dan akan selalu underfit data, sedangkan H 3 terlalu kompleks dan akan overfit data, hanya H 2 akan cocok dengan data dengan baik.
Pertanyaan saya adalah,
1) Model akan menyesuaikan data, tapi saya tidak berpikir itu masalah ML, tetapi masalah model itu sendiri. Karena, dengan menggunakan ML untuk H 1 , H 2 tidak menghasilkan overfitting. Apakah saya benar?
2) Dibandingkan dengan Bayesian, ML memang memiliki beberapa kelemahan, karena hanya memberikan estimasi titik parameter model , dan itu terlalu percaya diri. Sedangkan Bayesian tidak bergantung hanya pada nilai parameter yang paling mungkin, tetapi semua nilai yang mungkin dari parameter yang diberikan data yang diamati D , kan?
3) Mengapa Bayesian dapat menghindari atau mengurangi overfitting? Seperti yang saya pahami, kita dapat menggunakan Bayesian untuk perbandingan model, yaitu, mengingat data , kita bisa mengetahui kemungkinan marginal (atau bukti model) untuk masing-masing model yang dipertimbangkan, dan kemudian memilih yang dengan kemungkinan marginal tertinggi, benar ? Jika demikian, mengapa demikian?