Pada tahun 1999, Beyer et al. bertanya, Kapan "Tetangga Terdekat" bermakna?
Adakah cara yang lebih baik untuk menganalisis dan memvisualisasikan efek jarak rata pada pencarian NN sejak 1999?
Apakah set data yang diberikan memberikan jawaban yang berarti untuk masalah 1-NN? Masalah 10-NN? Masalah 100-NN?
Bagaimana Anda para pakar mendekati pertanyaan ini hari ini?
Suntingan Senin 24 Jan:
Bagaimana dengan "distance whiteout" sebagai nama yang lebih pendek untuk "distance flatness dengan meningkatnya dimensi"?
Cara mudah untuk melihat "jarak whiteout" adalah menjalankan 2-NN, dan plot jarak ke tetangga terdekat dan tetangga kedua terdekat. Plot di bawah ini menunjukkan dist 1 dan dist 2 untuk berbagai nclusters dan dimensi, oleh Monte Carlo. Contoh ini menunjukkan kontras jarak yang cukup baik untuk perbedaan absolut yang diskalakan | dist 2 - dist 1 | (Perbedaan relatif | dist 2 / dist 1 | → 1 sebagai dimensi → ∞, jadi menjadi tidak berguna.)
Apakah kesalahan absolut atau kesalahan relatif harus digunakan dalam konteks yang diberikan tentu saja tergantung pada noise "nyata" yang ada: sulit.
Saran: selalu jalankan 2-NN; 2 tetangga berguna saat mereka dekat, dan berguna saat tidak.