Apakah ada yang menggunakan metrik atau L .5 untuk pengelompokan, bukan L 2 ?
Aggarwal et al.,
Tentang perilaku mengejutkan metrik jarak dalam ruang dimensi tinggi
mengatakan (pada 2001) itu
secara konsisten lebih disukai daripada metrik jarak Euclidean L 2 untuk aplikasi penambangan data dimensi tinggi
dan mengklaim bahwa atau L .1 dapat lebih baik.
Alasan untuk menggunakan atau L .5 dapat berupa teori atau eksperimental, misalnya sensitivitas terhadap kertas pencilan / Kaban, atau program yang dijalankan pada data nyata atau sintetik (harap direproduksi). Contoh atau gambar akan membantu intuisi awam saya.
Pertanyaan ini merupakan kelanjutan dari jawaban Bob Durrant untuk When-is-terdekat-tetangga-bermakna-hari ini . Seperti yang dia katakan, pilihan akan tergantung data dan aplikasi; Meskipun demikian, laporan pengalaman nyata akan bermanfaat.
Catatan ditambahkan Selasa 7 Juni:
Saya menemukan "analisis data statistik berdasarkan norma-L1 dan metode terkait", Dodge ed., 2002, 454p, isbn 3764369205 - puluhan makalah konferensi.
Adakah yang bisa menganalisis konsentrasi jarak untuk fitur eksponensial iid? Salah satu alasan untuk eksponensial adalah bahwa ; lain (non-ahli) adalah distribusi max-entropy ≥ 0; yang ketiga adalah bahwa beberapa set data nyata, khususnya SIFT, terlihat kira-kira eksponensial.