Gagasan utama k-Nearest-Neighbor memperhitungkan titik terdekat dan memutuskan klasifikasi data berdasarkan suara terbanyak. Jika demikian, maka seharusnya tidak memiliki masalah dalam data dimensi yang lebih tinggi karena metode seperti hashing sensitif lokalitas dapat secara efisien menemukan tetangga terdekat.
Selain itu, pemilihan fitur dengan jaringan Bayesian dapat mengurangi dimensi data dan membuat pembelajaran lebih mudah.
Namun, makalah ulasan oleh John Lafferty dalam pembelajaran statistik menunjukkan bahwa pembelajaran non-parametrik dalam ruang fitur dimensi tinggi masih merupakan tantangan dan belum terpecahkan.
Apa yang salah?