Dalam Elemen Pembelajaran Statistik , masalah diperkenalkan untuk menyoroti masalah dengan k-nn dalam ruang dimensi tinggi. Ada titik data yang terdistribusi secara seragam dalam satuan bola -dimensi.p
Jarak median dari titik asal ke titik data terdekat diberikan oleh ekspresi:
Ketika , rumus memecah menjadi setengah jari-jari bola, dan saya bisa melihat bagaimana titik terdekat mendekati perbatasan sebagai , sehingga membuat intuisi di balik knn memecah dalam dimensi tinggi. Tapi saya tidak bisa mengerti mengapa formula ini bergantung pada N. Bisakah seseorang tolong klarifikasi?p → ∞
Juga buku ini membahas masalah ini lebih lanjut dengan menyatakan: "... prediksi jauh lebih sulit di dekat tepi sampel pelatihan. Seseorang harus memperkirakan dari titik sampel tetangga daripada interpolasi di antara mereka". Ini sepertinya pernyataan yang mendalam, tapi sepertinya saya tidak bisa memahami artinya. Adakah yang bisa menulis ulang?