Bagaimana saya dapat mengkonversi jarak (Euclidean) ke skor kesamaan

13

Saya menggunakan means clustering untuk mengelompokkan suara speaker. Ketika saya membandingkan ucapan dengan data speaker yang dikelompokkan, saya mendapatkan distorsi rata-rata (jarak Euclidean). Jarak ini bisa dalam kisaran . Saya ingin mengonversi jarak ini ke skor kesamaan . Tolong bimbing saya tentang bagaimana saya bisa mencapai ini. $k$ $[0,\infty]$ $[0,1]$

— Muhammad
sumber

15

Jika $d(p_1,p_2)$ mewakili jarak euclidean dari titik $p_1$ ke titik $p_2$ ,

\frac{1}{1 + d (p_{1}, p_{2})}

$\frac{1}{1 + d(p_1, p_2)}$

umumnya digunakan.

— TrynnaDoStat
sumber

Harap perbaiki saya jika saya salah, jika kita memiliki

X = (x_{1}, x_{2}, x_{3}, . . ., x_{t})

$X = (x_1,x_2,x_3,...,x_t)$ dan

Y = (Y_{1}, Y_{2}, Y_{3}, . . ., Y_{n})

$Y = (Y_1,Y_2,Y_3,...,Y_n)$ di mana setiap

dan

adalah dimensi

. Kemudian kita dapat mendefinisikan kesamaan seperti,

x

$x$

y

$y$

D

$D$

S i m i l a r i t y = \frac{1}{t} \sum_{i = 1}^{t} \frac{1}{1 + m i n D i s t a n c e (x_{i}, Y)}

$Similarity = \frac{1}{t} \sum\limits_{i=1}^t \frac{1}{ 1+ minDistance(x_i, Y)}$ .

— Muhammad

Saya mengerti bahwa plus 1 dalam penyebut adalah untuk menghindari pembagian dengan kesalahan nol. Tetapi saya telah menemukan bahwa nilai plus satu secara tidak proporsional mempengaruhi nilai-nilai d (p1, p2) yang lebih besar dari 1 dan akhirnya mengurangi skor kesamaan secara signifikan. Apakah ada cara lain untuk melakukan ini? Mungkin s = 1-d (p1, p2)

— aamir23

9

Anda juga dapat menggunakan: manaadalah fungsi jarak yang Anda inginkan. $\frac{1}{e^{dist}}$ dist

— Pengecualian yang tidak tertangani
sumber

Bisakah Anda memberikan buku referensi / dokumentasi yang terkait dengan persamaan ini di mana Anda menemukannya? @Dougal

— Justlife

@AnimeshKumarPaul Saya tidak menulis jawaban ini, hanya memperbaiki formatnya. Tetapi ini sering digunakan sebagai versi dari misalnya "kernel RBF yang digeneralisasi"; lihat misalnya di sini . Pertanyaan itu menyangkut apakah outputnya adalah kernel pasti positif; Namun, jika Anda tidak peduli tentang itu, setidaknya itu memenuhi gagasan intuitif tentang kesamaan bahwa poin yang lebih jauh kurang serupa.

— Dougal

@Justlife: Google untuk "ensiklopedia jarak" yang satu ini dan pilih hasilnya dengan dokumen pdf.

— Pengecualian tanpa

6

Kedengarannya seperti Anda menginginkan sesuatu yang mirip dengan cosinus similarity, yang dengan sendirinya skor kesamaan dalam interval satuan. Faktanya, ada hubungan langsung antara jarak Euclidean dan persamaan cosinus!

Perhatikan itu

| | x - x^{'} | |^{2} = (x - x^{'})^{T} (x - x^{'}) = | | x | | + | | x^{'} | | - 2 | | x - x^{'} | | .

$||x-x^\prime||^2=(x-x^\prime)^T(x-x^\prime)=||x||+||x^\prime||-2||x-x^\prime||.$

Sedangkan cosinus similarity adalah manaadalah sudut antaradan.

f (x, x^{'}) = \frac{x^{T} x^{'}}{| | x | | | | x^{'} | |} = \cos (θ)

$f(x,x^\prime)=\frac{x^T x^\prime}{||x||||x^\prime||}=\cos(\theta)$

θ

$\theta$

x

$x$

x^{'}

$x^\prime$

Kapan kami memiliki dan $||x||=||x^\prime||=1,$

| | x - x^{'} | |^{2} = 2 (1 - f (x, x^{'}))

$||x-x^\prime||^2=2(1-f(x,x^\prime))$

f (x, x^{'}) = x^{T} x^{'},

$f(x,x^\prime)=x^T x^\prime,$

begitu

1 - \frac{| | x - x^{'} | |^{2}}{2} = f (x, x^{'}) = \cos (θ)

$1-\frac{||x-x^\prime||^2}{2}=f(x,x^\prime)=\cos(\theta)$

Dari perspektif komputasi, mungkin lebih efisien untuk hanya menghitung cosinus, daripada jarak Euclidean dan kemudian melakukan transformasi.

— Sycorax berkata Reinstate Monica
sumber

‖ x, x^{'} ‖^{2}

$\lVert x, x' \rVert^2$

‖ x - x^{'} ‖^{2}

$\lVert x - x' \rVert^2$

‖ x ‖

$\lVert x \rVert$

‖ x^{'} ‖

$\lVert x' \rVert$

⟨ x, x^{'} ⟩

$\langle x, x' \rangle$

x^{T} x^{'} / (‖ x ‖ ‖ x^{'} ‖)

$x^T x' / (\lVert x \rVert \lVert x' \rVert)$ , though Wikipedia says the "angular similarity"

1 - \frac{2}{π} \frac{x^{T} x^{'}}{‖ x ‖ ‖ x^{'} ‖}

$1 - \frac2\pi \frac{x^T x'}{\lVert x \rVert \lVert x' \rVert}$ is also sometimes called that.

— Dougal

@Dougal Blah. Correct. I've revised to make it intelligible.

— Sycorax says Reinstate Monica

Cool. Note though that since the OP said distances are unbounded, it seems like we don't have

‖ x ‖ = 1

$\lVert x \rVert = 1$ . Also, your expansion of

‖ x - x^{'} ‖^{2}

$\lVert x - x' \rVert^2$ is mistaken; it should be

‖ x ‖^{2} + ‖ x^{'} ‖^{2} - 2 x^{T} x^{'}

$\lVert x \rVert^2 + \lVert x' \rVert^2 - 2 x^T x'$ , though the rest of your post handles it correctly. :)

— Dougal

3

How about a Gaussian kernel ?

$K(x, x') = \exp\left( -\frac{\| x - x' \|^2}{2\sigma^2} \right)$

The distance $\|x - x'\|$ is used in the exponent. The kernel value is in the range $[0, 1]$ . There is one tuning parameter $\sigma$ . Basically if $\sigma$ is high, $K(x, x')$ will be close to 1 for any $x, x'$ . If $\sigma$ is low, a slight distance from $x$ to $x'$ will lead to $K(x,x')$ being close to 0.

— wij
sumber

1

Note that this answer and @Unhandled exception's are very related: this is

\exp (- γ d (x, x^{'})^{2})

$\exp\left( - \gamma d(x, x')^2 \right)$ , where that one [introducing a scaling factor] is

\exp (- γ d (x, x^{'}))

$\exp\left( - \gamma d(x, x') \right)$ , a Gaussian kernel with

\sqrt{d}

$\sqrt{d}$ as the metric. This will still be a valid kernel, though the OP doesn't necessarily care about that.

— Dougal

0

If you are using a distance metric that is naturally between 0 and 1, like Hellinger distance. Then you can use 1 - distance to obtain similarity.

— Brad
sumber