Metrik

14

Apakah ada yang menggunakan metrik atau untuk pengelompokan, bukan ? Aggarwal et al., Tentang perilaku mengejutkan metrik jarak dalam ruang dimensi tinggi mengatakan (pada 2001) itu $L_1$ $L_.5$ $L_2$

secara konsisten lebih disukai daripada metrik jarak Euclidean untuk aplikasi penambangan data dimensi tinggi $L_1$ $L_2$

dan mengklaim bahwa atau dapat lebih baik. $L_.5$ $L_.1$

Alasan untuk menggunakan atau dapat berupa teori atau eksperimental, misalnya sensitivitas terhadap kertas pencilan / Kaban, atau program yang dijalankan pada data nyata atau sintetik (harap direproduksi). Contoh atau gambar akan membantu intuisi awam saya. $L_1$ $L_.5$

Pertanyaan ini merupakan kelanjutan dari jawaban Bob Durrant untuk When-is-terdekat-tetangga-bermakna-hari ini . Seperti yang dia katakan, pilihan akan tergantung data dan aplikasi; Meskipun demikian, laporan pengalaman nyata akan bermanfaat. $p$

Catatan ditambahkan Selasa 7 Juni:

Saya menemukan "analisis data statistik berdasarkan norma-L1 dan metode terkait", Dodge ed., 2002, 454p, isbn 3764369205 - puluhan makalah konferensi.

Adakah yang bisa menganalisis konsentrasi jarak untuk fitur eksponensial iid? Salah satu alasan untuk eksponensial adalah bahwa ; lain (non-ahli) adalah distribusi max-entropy 0; yang ketiga adalah bahwa beberapa set data nyata, khususnya SIFT, terlihat kira-kira eksponensial. $|exp - exp| \sim exp$ $\ge$

clustering distance-functions rule-of-thumb

— denis
sumber

Penting untuk menyebutkan bahwa Aggarwal et al. dalam artikel tertentu di mana mencari perilaku

norma-norma dalam masalah seperti pengelompokan, tetangga terdekat dan pengindeksan.

L_{p}

$L_p$

— deps_stats

Anda mungkin berarti

l_{p}

$l_p$ metrik untuk urutan daripada

untuk fungsi? Menurut pendapat saya, jika ada kriteria optimasi masalah bisa diselesaikan dengan mengoptimalkannya. Rule-of-thumbs biasanya akan terkait dengan solusi yang tepat seperti itu. Pokoknya, cobalah untuk berpikir tentang sifat larutan knn yang disukai. Setelah saya membaca artikel mungkin bisa mengatakan lebih banyak tentang topik tersebut.

L_{p}

$L_p$

— Dmitrij Celov

@deps_stats, ya, terima kasih; mengubah judul dan baris pertama. @ Dmitrij, 1) ya kecil-l benar-benar berbicara, tetapi big-L adalah umum dan dapat dimengerti. 2) ya orang dapat menemukan p yang optimal untuk masalah yang diberikan, tetapi apa pilihan pertama Anda, dan mengapa?

— denis

6

Kuncinya di sini adalah memahami "kutukan dimensi" referensi kertas. Dari wikipedia: ketika jumlah dimensi sangat besar,

hampir semua ruang dimensi tinggi "jauh" dari pusat, atau, dengan kata lain, ruang satuan dimensi tinggi dapat dikatakan hampir seluruhnya terdiri dari "sudut" hypercube, dengan hampir tidak ada "tengah"

Sebagai hasilnya, itu mulai menjadi sulit untuk berpikir tentang poin mana yang dekat dengan poin lainnya, karena mereka semua kurang lebih sama berjauhan. Ini adalah masalah di kertas pertama yang Anda tautkan.

Masalah dengan p tinggi adalah bahwa ia menekankan nilai yang lebih besar - lima kuadrat dan empat kuadrat terpisah sembilan unit, tetapi satu kuadrat dan dua kuadrat hanya terpisah tiga unit. Jadi dimensi yang lebih besar (benda-benda di sudut) mendominasi segalanya dan Anda kehilangan kontras. Jadi ini inflasi jarak jauh adalah apa yang ingin Anda hindari. Dengan p fraksional, penekanannya adalah pada perbedaan dalam dimensi yang lebih kecil - dimensi yang sebenarnya memiliki nilai menengah - yang memberi Anda lebih banyak kontras.

— David J. Harris
sumber

(+1) Jadi @vid, secara umum adakah kriteria yang menggambarkan kualitas kontras?

— Dmitrij Celov

Sepertinya kertas pertama yang Anda tautkan menunjukkan jarak maksimum dikurangi jarak minimum. Namun, mungkin ada cara yang lebih baik.

— David J. Harris

intuisi yang jelas, +1 (meskipun tidak jelas di mana sudut berada dalam distribusi jarak). Sudahkah Anda menggunakan

atau

pada data nyata?

L_{1}

$L_1$

L_{.5}

$L_.5$

— denis

1

@Denis, terima kasih! Saya pikir sedikit sudut paling masuk akal jika data dibatasi paling dalam atau semua dimensi. Bagaimanapun, saya khawatir saya tidak memiliki cukup pengalaman dengan pengelompokan untuk memiliki intuisi yang baik tentang metrik yang berbeda untuk Anda. Mengganggu karena itu, pendekatan terbaik mungkin untuk mencoba beberapa dan melihat apa yang terjadi

— David J. Harris

1

Ada kertas yang menggunakan metrik Lp dengan p antara 1 dan 5 yang mungkin ingin Anda lihat:

Amorim, RC dan Mirkin, B., Minkowski Metric, Pembobotan Fitur dan Anomali Cluster Inisialisasi dalam K-Means Clustering, Pattern Recognition, vol. 45 (3), hlm. 1061-1075, 2012

Unduh, https://www.researchgate.net/publication/232282003_Author 's_personal_copy_Minkowski_metric_feature_weighting_and_anomalous_cluster_in_K-Means_clustering / file / d912f508115a040b45.pdf

— Homer Simpson
sumber

0

$\mathbb{R}^n$ $u$ $\ell_2$ $u$ $u$ $\ell_2$

— Ashok
sumber

L_{2}

$L_2$

L_{1}

$L_1$

L_{.5}

$L_.5$