Saya mengerti apa itu "kutukan dimensi", dan saya telah melakukan beberapa masalah optimasi dimensi tinggi dan mengetahui tantangan dari kemungkinan eksponensial.
Namun, saya ragu apakah "kutukan dimensi" ada di sebagian besar data dunia nyata (yah mari kita kesampingkan gambar atau video sejenak, saya berpikir tentang data seperti data demografi pelanggan dan perilaku pembelian).
Kami dapat mengumpulkan data dengan ribuan fitur tetapi kemungkinannya kecil bahkan fitur tersebut dapat sepenuhnya menjangkau ruang dengan ribuan dimensi. Inilah sebabnya mengapa teknik reduksi dimensi sangat populer.
Dengan kata lain, sangat mungkin data tidak mengandung tingkat informasi eksponensial, yaitu, banyak fitur sangat berkorelasi dan banyak fitur memenuhi 80-20 aturan (banyak instance memiliki nilai yang sama).
Dalam kasus seperti itu, saya pikir metode seperti KNN akan tetap bekerja dengan cukup baik. (Dalam kebanyakan buku "kutukan dimensi" mengatakan dimensi> 10 bisa bermasalah. Dalam demo mereka menggunakan distribusi seragam di semua dimensi, di mana entropi sangat tinggi. Saya ragu di dunia nyata ini akan pernah terjadi.)
Pengalaman pribadi saya dengan data nyata adalah bahwa "kutukan dimensi" tidak terlalu memengaruhi metode templat (seperti KNN) dan dalam kebanyakan kasus, dimensi ~ 100 masih akan berfungsi.
Apakah ini benar untuk orang lain? (Saya bekerja dengan data nyata di berbagai industri selama 5 tahun, tidak pernah mengamati "semua pasangan jarak memiliki nilai yang sama" seperti yang dijelaskan dalam buku ini.)