Kebingungan terkait dengan teknik mengantongi

Saya mengalami sedikit kebingungan. Saya sedang membaca makalah ini di mana dijelaskan bahwa teknik mengantongi sangat mengurangi varians dan hanya sedikit meningkatkan bias. Saya tidak mengerti mengapa mengurangi varians. Saya tahu perbedaan dan biasnya. Bias adalah ketidakmampuan model untuk mempelajari data. Varians adalah sesuatu yang mirip dengan overfitting. Saya hanya tidak mengerti bagaimana mengantongi mengurangi varian.

variance bias bagging

— pengguna31820
sumber

Meskipun bias dan varians berpotensi memiliki makna yang berbeda dalam konteks yang berbeda, pemahaman Anda tentang mereka tampaknya cacat, belum lagi salah.

— miura

Secara informal, ketika suatu model memiliki varian yang terlalu tinggi, ia dapat masuk "terlalu baik" ke data. Itu berarti, bahwa untuk data yang berbeda, parameter model yang ditemukan oleh algoritma pembelajaran akan berbeda, atau dengan kata lain akan ada variasi yang tinggi dalam parameter yang dipelajari, tergantung pada set pelatihan.

Anda dapat memikirkannya seperti itu: data diambil dari beberapa distribusi probabilitas dunia nyata, dan model mempelajari parameter tergantung pada data sampel. Oleh karena itu ada beberapa distribusi probabilitas bersyarat pada parameter yang dipelajari dari model yang diberikan data. Distribusi ini memiliki beberapa varian, terkadang hingga tinggi. Tetapi ketika Anda rata-rata model dengan set parameter yang berbeda dipelajari untuk set pelatihan yang berbeda, maka itu seperti Anda telah mengambil sampel dari distribusi probabilitas bersyarat kali ini. Rata-rata sampel dari PD memiliki varians yang selalu lebih kecil daripada hanya satu sampel dari distribusi yang sama. Untuk intuisi lihat pada Gaussian PD, dengan 0 mean dan satu sampel memiliki tepat $N$ $N$ $N$ $\sigma = 1$ $0$ mean dan varians . Tetapi jika Anda sampel kali dan rata-rata hasilnya, rata-rata hasil operasi masih , tetapi variansnya adalah . $1$ $N$ $0$ $\frac{1}{N}$

Harap perhatikan juga bahwa ini hanya intuisi yang sangat informal, dan akan lebih baik bagi Anda untuk membaca bias / varian dari beberapa sumber yang dapat diandalkan. Saya merekomendasikan Elemen Pembelajaran Statistik II: http://www-stat.stanford.edu/~tibs/ElemStatLearn/

Anda dapat mengunduh buku secara gratis, dan ada satu bab lengkap tentang dekomposisi bias / varian.

— sjm.majewski
sumber