Pros dari jarak Jeffries Matusita

Menurut beberapa makalah yang saya baca, jarak Jeffries dan Matusita biasa digunakan. Tetapi saya tidak dapat menemukan banyak informasi tentang itu kecuali rumus di bawah ini

JMD (x, y) = $\sqrt[2]{\sum(\sqrt[2]{x_i}-\sqrt[2]{y_i})^2}$

Ini mirip dengan jarak Euclidean kecuali untuk akar kuadrat

E (x, y) = $\sqrt[2]{\sum(x_i-y_i)^2}$

Jarak JM diklaim lebih dapat diandalkan daripada jarak Euclidean dalam hal klasifikasi. Adakah yang bisa menjelaskan mengapa perbedaan ini membuat jarak JM lebih baik?

classification k-nearest-neighbour euclidean

— romy_ngo
sumber

Saya tidak dapat menemukan referensi resmi yang menggunakan rumus ini untuk jarak Jeffries-Matusita. Rumus yang saya temukan didasarkan pada matriks kovarian untuk dua kelas dan tampaknya tidak memiliki hubungan dengan yang diberikan di sini, tetapi tampaknya mungkin ada dua (atau lebih) hal berbeda yang dikenal dengan nama ini. Bisakah Anda memberikan referensi atau (bahkan lebih baik) tautan? BTW, apakah dan dianggap kebetulan? (Jika demikian, ada interpretasi alami dari formula Anda.)

x_{i}

$x_i$

y_{i}

$y_i$

— whuber

@whuber: mungkin dan berdiri untuk dan

x

$x$

y

$y$

p (x)

$p(x)$

q (x)

$q(x)$

— user603

@ user603 Ya, saya pikir Anda sudah mendapatkannya. Sekarang koneksi ke divergensi KL dan ukuran Battacharyya menjadi jelas.

— whuber

Beberapa perbedaan utama, sebelum penjelasan yang lebih panjang di bawah, adalah:

Yang terpenting: jarak Jeffries-Matusita berlaku untuk distribusi, bukan vektor pada umumnya.
Rumus jarak JM yang Anda kutip di atas hanya berlaku untuk vektor yang mewakili distribusi probabilitas diskrit (yaitu vektor yang berjumlah 1).
Tidak seperti jarak Euclidean, jarak JM dapat digeneralisasi ke distribusi mana pun yang jarak Bhattacharrya dapat dirumuskan.
Jarak JM, melalui jarak Bhattacharrya, memiliki interpretasi probabilistik.

Jarak Jeffries-Matusita, yang tampaknya sangat populer dalam literatur Penginderaan Jauh, adalah transformasi jarak Bhattacharrya (ukuran populer dari ketidaksamaan antara dua distribusi, dinyatakan di sini sebagai ) dari jangkauan ke rentang tetap : $b_{p,q}$ $[0, \inf)$ $[0, \sqrt{2}]$

J M_{p, q} = \sqrt{2 (1 - \exp (- b (p, q))}

$JM_{p,q}=\sqrt{2(1-\exp(-b(p,q))}$

Keuntungan praktis dari jarak JM, menurut makalah ini adalah bahwa ukuran ini "cenderung menekan nilai keterpisahan tinggi, sementara terlalu menekankan nilai keterpisahan rendah".

Jarak Bhattacharrya mengukur ketidaksamaan dua distribusi dan dalam pengertian berkesinambungan abstrak berikut: Jika distribusi dan ditangkap oleh histogram, yang diwakili oleh satuan panjang vektor (di mana elemen th adalah hitungan dinormalisasi untuk th sampah) ini menjadi: Dan akibatnya jarak JM untuk dua histogram adalah: Yang, mencatat bahwa untuk histogram dinormalisasi $p$ $q$

b (p, q) = - \ln \int \sqrt{p (x) q (x)} d x

$b(p,q)=-\ln\int{\sqrt{p(x)q(x)}}dx$

p

$p$

q

$q$

i

$i$

i

$i$

N

$N$

b (p, q) = - \ln \sum_{i = 1}^{N} \sqrt{p_{i} \cdot q_{i}}

$b(p,q)=-\ln\sum_{i=1}^{N}\sqrt{p_i\cdot q_i}$

J M_{p, q} = \sqrt{2 (1 - \sum_{i = 1}^{N} \sqrt{p_{i} \cdot q_{i}})}

$JM_{p,q}=\sqrt{2\left(1-\sum_{i=1}^{N}{\sqrt{p_i\cdot q_i}}\right)}$

\sum_{i} p_{i} = 1

$\sum_{i}{p_i}=1$ , sama dengan rumus yang Anda berikan di atas:

J M_{p, q} = \sqrt{\sum_{i = 1}^{N} {(\sqrt{p_{i}} - \sqrt{q_{i}})}^{2}} = \sqrt{\sum_{i = 1}^{N} (p_{i} - 2 \sqrt{p_{i}} \sqrt{q_{i}} + q_{i})} = \sqrt{2 (1 - \sum_{i = 1}^{N} \sqrt{p_{i} \cdot q_{i}})}

$JM_{p,q}=\sqrt{\sum_{i=1}^{N}{\left(\sqrt{p_i} - \sqrt{q_i}\right)^2}}=\sqrt{\sum_{i=1}^{N}{\left(p_i -2 \sqrt{p_i}\sqrt{q_i} + q_i \right)}}=\sqrt{2\left(1-\sum_{i=1}^{N}{\sqrt{p_i\cdot q_i}}\right)}$

— rroowwllaanndd
sumber

+1 Terima kasih banyak telah meloncat dan membuat upaya yang dilakukan dengan sangat baik ini untuk mengklarifikasi situasi.

— whuber