Mengukur “jarak” antara dua distribusi multivarian


28

Saya mencari beberapa terminologi yang bagus untuk menggambarkan apa yang saya coba lakukan, untuk membuatnya lebih mudah untuk mencari sumber daya.

Jadi, katakan saya memiliki dua kelompok titik A dan B, masing-masing terkait dengan dua nilai, X dan Y, dan saya ingin mengukur "jarak" antara A dan B - yaitu seberapa besar kemungkinan mereka diambil sampelnya dari distribusi yang sama (Saya dapat berasumsi bahwa distribusinya normal). Misalnya, jika X dan Y berkorelasi dalam A tetapi tidak dalam B, distribusinya berbeda.

Secara intuitif, saya akan mendapatkan matriks kovarians dari A, dan kemudian melihat seberapa besar kemungkinan setiap titik dalam B cocok di sana, dan sebaliknya (mungkin menggunakan jarak seperti Mahalanobis).

Tapi itu agak "ad-hoc", dan mungkin ada cara yang lebih ketat untuk menggambarkan ini (tentu saja, dalam praktiknya saya memiliki lebih dari dua dataset dengan lebih dari dua variabel - Saya mencoba mengidentifikasi yang mana dari dataset saya adalah outlier).

Terima kasih!


Entah mengapa, tetapi tes Mantel muncul di depan mata saya ketika saya membaca posting Anda.
Roman Luštrik

Jawaban:



16

Hmm, jarak Bhattacharyya tampaknya seperti yang saya cari, meskipun jarak Hellinger juga berfungsi.


Anda menyebutkan Bhattacharyya dan Helling lalu menerima jawaban yang berbicara tentang KL ... Pada akhirnya apa pilihan Anda dan mengapa?
Simon C.

1
Saya percaya itu adalah divergensi KL, tapi ... itu pada tahun 2010 dan ingatan saya jauh dari sempurna.
Emile

ahah ya saya menebaknya, tapi terima kasih!
Simon C.

9

Heuristis

  • Bentuk Minkowski
  • Weighted-Mean-Variance (WMV)

Statistik uji nonparametrik

  • 2 (Chi Square)
  • Kolmogorov-Smirnov (KS)
  • Cramer / von Mises (CvM)

Divergensi informasi-teori

  • Kullback-Liebler (KL)
  • Divergensi Jensen – Shannon (metrik)
  • Jeffrey-divergence (stabil secara numerik dan simetris)

Langkah-langkah jarak darat

  • Persimpangan histogram
  • Bentuk kuadrat (QF)
  • Jarak Earth Movers (EMD)


0

Lebih sedikit ukuran "Perbedaan Statistik"

  • Tes permutasi (oleh Fisher)
  • Teorema Limit Pusat & Teorema Slutsky
  • Tes Mann-Whitney-Wilcoxin
  • Tes Anderson – Darling
  • Tes Shapiro-Wilk
  • Tes Hosmer – Lemeshow
  • Tes Kuiper
  • perbedaan Stein kernel
  • Kesamaan Jaccard
  • Juga, pengelompokan hierarkis berkaitan dengan langkah-langkah kesamaan antar kelompok. Ukuran paling populer dari kesamaan kelompok mungkin adalah hubungan tunggal, hubungan lengkap, dan hubungan rata-rata.
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.