Jarak mana yang digunakan? mis. manhattan, euclidean, Bray-Curtis, dll


11

Saya bukan seorang ahli ekologi komunitas, tetapi hari ini saya sedang mengerjakan data ekologi komunitas.

Apa yang saya tidak bisa mengerti, terlepas dari matematika dari jarak ini, adalah kriteria untuk setiap jarak yang digunakan dan dalam situasi apa itu dapat diterapkan. Misalnya, apa yang harus digunakan dengan data hitungan? Bagaimana cara mengubah sudut kemiringan antara dua lokasi menjadi jarak? Atau suhu atau curah hujan di dua lokasi? Apa asumsi untuk setiap jarak dan kapan itu masuk akal?


Cara andal untuk memahami metrik jarak, asumsi, makna, dan penerapannya adalah dengan merenungkan rumusnya. Anda tahu, anatomi komparatif telah memungkinkan untuk memprediksi bagaimana berbagai hewan hidup dan berperilaku. Baca juga buku / artikel tentang metrik jarak.
ttnphns

2
Catatan Pedantic: Bray – Curtis bukan jarak tetapi ketidaksamaan.
Franck Dernoncourt

Jawaban:


13

Sayangnya, dalam kebanyakan situasi tidak ada jawaban yang jelas untuk pertanyaan Anda. Artinya, untuk aplikasi apa pun, pasti ada banyak metrik jarak yang akan menghasilkan jawaban yang sama dan akurat. Mempertimbangkan bahwa ada lusinan, dan mungkin ratusan metrik jarak valid yang aktif digunakan, gagasan bahwa Anda dapat menemukan jarak "benar" bukanlah cara yang produktif untuk memikirkan masalah memilih metrik jarak yang tepat.

Sebagai gantinya saya akan fokus untuk tidak memilih metrik jarak yang salah . Apakah Anda ingin jarak Anda mencerminkan "besaran absolut" (misalnya, Anda tertarik menggunakan jarak untuk mengidentifikasi saham yang memiliki nilai rata-rata yang sama), atau untuk mencerminkan keseluruhan bentuk respons (mis. Harga saham yang berfluktuasi dengan cara yang sama dari waktu ke waktu, tetapi mungkin memiliki nilai mentah yang sama sekali berbeda)? Skenario yang pertama akan menunjukkan jarak seperti Manhattan dan Euclidean, sedangkan yang terakhir akan menunjukkan jarak korelasi, misalnya.

Jika Anda mengetahui struktur kovarian data Anda maka jarak Mahalanobis mungkin lebih tepat. Untuk data kategorikal murni ada banyak jarak yang diusulkan, misalnya jarak yang cocok. Untuk campuran Gower kategorikal dan berkelanjutan jarak populer, (meskipun agak secara teoritis tidak memuaskan menurut saya).

Akhirnya, menurut pendapat saya analisis Anda akan diperkuat jika Anda menunjukkan bahwa hasil dan kesimpulan Anda kuat untuk pilihan metrik jarak (tentu saja dalam subset jarak yang sesuai). Jika analisis Anda berubah secara drastis dengan perubahan halus dalam metrik jarak yang digunakan, studi lebih lanjut harus dilakukan untuk mengidentifikasi alasan ketidakkonsistenan.


1
Apa maksudmu correlation distance? 1- r ?
ttnphns

1
1-rρ[-1,1]cHais-1(ρ)1-ρ practice2-2ρhalrSebuahctsayace

Kutipan untuk komentar terakhir saya: Krzanowski (1983). Biometrika, 70 (1), 235--243. Lihat halaman 236.
ahfoss

1
Ok terima kasih. Tolong periksa juga jawaban ini . Ini membuktikan fakta bahwa r persis terkait dengan jarak euclidean yang diperoleh pada data terstandarisasi (profil dibandingkan), yang reflect overall shape of the responsemenurut Anda.
ttnphns

1
Pos yang bagus. Kedua metrik tersebut memang terkait, seperti yang Anda tunjukkan. Untuk mengontekstualisasikan poin Anda ke diskusi saat ini, perbedaan utama adalah bahwa dalam variabel jarak Euclidean tidak (biasanya) terpusat, tetapi rumus korelasi memusatkan variabel dan skala dengan deviasi standar mereka. Dengan demikian, korelasi tidak berbeda dengan transformasi linear, sedangkan jarak Euclidean tidak harus.
ahfoss

6

Memilih jarak yang tepat bukanlah tugas dasar. Ketika kami ingin membuat analisis kluster pada kumpulan data, hasil yang berbeda dapat muncul dengan menggunakan jarak yang berbeda, jadi sangat penting untuk berhati-hati dalam memilih jarak mana karena kami dapat membuat artefak yang baik palsu yang menangkap dengan baik variabilitas, tetapi sebenarnya tanpa merasakan masalah kita.

The Euclidean jarak yang tepat ketika saya memiliki variabel numerik terus menerus dan saya ingin merefleksikan jarak mutlak. Jarak ini memperhitungkan setiap variabel dan tidak menghapus redudansi, jadi jika saya memiliki tiga variabel yang menjelaskan hal yang sama (berkorelasi), saya akan menimbang efek ini dengan tiga. Selain itu, jarak ini bukan skala invarian, jadi umumnya saya harus skala sebelumnya untuk menggunakan jarak tersebut.
Contoh ekologi: Kami memiliki pengamatan berbeda dari banyak daerah, di mana para ahli telah mengambil sampel beberapa faktor mikrobiologis, fisik dan kimia. Kami ingin menemukan pola dalam ekosistem. Faktor-faktor ini memiliki korelasi tinggi, tetapi kami tahu semua orang relevan, jadi kami tidak ingin menghapus redudansi ini. Kami menggunakan jarak Euclidean dengan data yang diskalakan untuk menghindari efek unit.

The Mahalanobis jarak yang tepat ketika saya memiliki variabel numerik terus menerus dan saya ingin merefleksikan jarak mutlak, tapi kami ingin menghilangkan redudansi. Jika kita memiliki variabel berulang, efek berulangnya akan menghilang.

Keluarga Hellinger , Profil Spesies dan jarak Chord sesuai ketika kita ingin menekankan pada perbedaan antara variabel, ketika kita ingin membedakan profil. Jarak-jarak ini berbobot dengan jumlah total setiap pengamatan, sedemikian rupa sehingga jaraknya kecil ketika variabel demi variabel individu lebih mirip, meskipun dalam besaran absolut sangat berbeda. Awas! Jarak ini mencerminkan perbedaan profil dengan sangat baik, tetapi kehilangan efek besarnya. Mereka bisa sangat berguna ketika kita memiliki ukuran sampel yang berbeda.
Contoh ekologi: Kami ingin mempelajari fauna dari banyak tanah dan kami memiliki matriks data inventarisasi gastropoda (lokasi pengambilan sampel dalam baris dan nama spesies dalam kolom). Matriks ini ditandai dengan memiliki banyak nol dan besaran yang berbeda karena beberapa lokasi memiliki beberapa spesies dan yang lainnya memiliki spesies lain. Kita bisa menggunakan jarak Hellinger.

Bray-Curtis sangat mirip, tetapi lebih tepat ketika kita ingin membedakan profil dan juga mempertimbangkan besaran relatif.


Terima kasih telah membedakan kasus penggunaan dan contohnya. Menemukan ini sangat membantu dalam aplikasi ke model klasifikasi aero.
S3DEV

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.