Secara informal, ketika suatu model memiliki varian yang terlalu tinggi, ia dapat masuk "terlalu baik" ke data. Itu berarti, bahwa untuk data yang berbeda, parameter model yang ditemukan oleh algoritma pembelajaran akan berbeda, atau dengan kata lain akan ada variasi yang tinggi dalam parameter yang dipelajari, tergantung pada set pelatihan.
Anda dapat memikirkannya seperti itu: data diambil dari beberapa distribusi probabilitas dunia nyata, dan model mempelajari parameter tergantung pada data sampel. Oleh karena itu ada beberapa distribusi probabilitas bersyarat pada parameter yang dipelajari dari model yang diberikan data. Distribusi ini memiliki beberapa varian, terkadang hingga tinggi. Tetapi ketika Anda rata-rata model dengan set parameter yang berbeda dipelajari untuk set pelatihan yang berbeda, maka itu seperti Anda telah mengambil sampel dari distribusi probabilitas bersyarat kali ini. Rata-rata sampel dari PD memiliki varians yang selalu lebih kecil daripada hanya satu sampel dari distribusi yang sama. Untuk intuisi lihat pada Gaussian PD, dengan 0 mean dan satu sampel memiliki tepatNNNσ=10mean dan varians . Tetapi jika Anda sampel kali dan rata-rata hasilnya, rata-rata hasil operasi masih , tetapi variansnya adalah .1N01N
Harap perhatikan juga bahwa ini hanya intuisi yang sangat informal, dan akan lebih baik bagi Anda untuk membaca bias / varian dari beberapa sumber yang dapat diandalkan. Saya merekomendasikan Elemen Pembelajaran Statistik II:
http://www-stat.stanford.edu/~tibs/ElemStatLearn/
Anda dapat mengunduh buku secara gratis, dan ada satu bab lengkap tentang dekomposisi bias / varian.