Pertanyaan saya adalah tentang pengelompokan tetangga terdekat 1 dan tentang pernyataan yang dibuat dalam buku The Elements of Statistics Learning, karya Hastie, Tibshirani, dan Friedman. Pernyataannya adalah (hlm. 465, bagian 13.3):
"Karena hanya menggunakan titik pelatihan yang paling dekat dengan titik kueri, bias dari estimasi tetangga 1-terdekat sering rendah, tetapi variansnya tinggi."
Buku ini tersedia di
http://www-stat.stanford.edu/~tibs/ElemStatLearn/download.html
Sebagai permulaan, kita dapat menentukan apa bias dan varians. Dari pertanyaan "bagaimana-dapat-meningkatkan-dimensi-meningkatkan-varians-tanpa-meningkatkan-bi-" , kita memiliki itu:
"Pertama-tama, bias dari classifier adalah perbedaan antara rata-rata estimasi dan fungsi sebenarnya, sedangkan varians dari classifier adalah perbedaan yang diharapkan dari fungsi prediksi estimasi dari nilai rata-rata (yaitu seberapa tergantung classifier pada acak pengambilan sampel dilakukan di set pelatihan).
Oleh karena itu, kehadiran bias menunjukkan sesuatu yang pada dasarnya salah dengan model, sedangkan varians juga buruk, tetapi model dengan varian tinggi setidaknya bisa memprediksi dengan baik rata-rata. "
Bisakah seseorang tolong jelaskan mengapa variansnya tinggi dan biasnya rendah untuk classifier tetangga 1-terdekat?