Saya telah mencoba untuk mengumpulkan beberapa komentar tentang kovarian jarak berdasarkan kesan saya dari membaca referensi yang tercantum di bawah ini. Namun, saya tidak menganggap diri saya ahli dalam topik ini. Komentar, koreksi, saran, dll. Dipersilakan.
Pernyataan itu (sangat) bias terhadap potensi kelemahan, seperti yang diminta dalam pertanyaan awal .
Seperti yang saya lihat, potensi kelemahannya adalah sebagai berikut:
- Metodologinya baru . Dugaan saya adalah bahwa ini adalah faktor tunggal terbesar mengenai kurangnya popularitas saat ini. Makalah yang menguraikan kovarian jarak dimulai pada pertengahan 2000-an dan berkembang hingga saat ini. Makalah yang dikutip di atas adalah yang paling banyak mendapat perhatian (hype?) Dan usianya kurang dari tiga tahun. Sebaliknya, teori dan hasil pada korelasi dan langkah-langkah seperti korelasi sudah lebih dari satu abad bekerja di belakangnya.
- Konsep dasar lebih menantang . Korelasi momen-produk Pearson, pada tingkat operasional, dapat dijelaskan kepada mahasiswa baru perguruan tinggi tanpa latar belakang kalkulus dengan mudah. Sudut pandang "algoritmik" sederhana dapat ditata dan intuisi geometris mudah untuk dijelaskan. Sebaliknya, dalam kasus kovarians jarak, bahkan gagasan jumlah produk dari jarak Euclidean berpasangan agak sedikit lebih sulit dan gagasan kovarian berkenaan dengan proses stokastik jauh melampaui apa yang bisa dijelaskan kepada audiens seperti itu. .
- Secara komputasi lebih menuntut . Algoritma dasar untuk menghitung statistik uji adalah dalam ukuran sampel dibandingkan dengan O ( n ) untuk metrik korelasi standar. Untuk ukuran sampel kecil ini bukan masalah besar, tetapi untuk sampel yang lebih besar, ini menjadi lebih penting.O ( n2)O ( n )
- Statistik uji tidak bebas distribusi, bahkan tanpa gejala . Orang mungkin berharap bahwa untuk statistik uji yang konsisten terhadap semua alternatif, bahwa distribusi — setidaknya asimptotik — mungkin independen dari distribusi dan Y yang mendasarinya di bawah hipotesis nol. Ini bukan kasus untuk kovarians jarak karena distribusi di bawah nol tergantung pada distribusi yang mendasari X dan Y bahkan ketika ukuran sampel cenderung tak terbatas. Ini adalah benar bahwa distribusi secara seragam dibatasi oleh χ 2 1 distribusi, yang memungkinkan untuk perhitungan dari konservatif nilai kritis.XYXYχ21
- | ρ |
- Properti daya tidak dikenal . Konsisten terhadap semua alternatif pada dasarnya menjamin bahwa kovarians jarak harus memiliki daya yang sangat rendah terhadap beberapa alternatif. Dalam banyak kasus, seseorang rela menyerah generalitas untuk mendapatkan kekuatan tambahan terhadap alternatif kepentingan tertentu. Makalah asli menunjukkan beberapa contoh di mana mereka mengklaim daya tinggi relatif terhadap metrik korelasi standar, tapi saya percaya bahwa, kembali ke (1.) di atas, perilakunya terhadap alternatif belum dipahami dengan baik.
Untuk mengulangi, jawaban ini mungkin agak negatif. Tapi, bukan itu maksudnya. Ada beberapa ide yang sangat indah dan menarik terkait dengan kovarian jarak dan kebaruan relatifnya juga membuka jalan penelitian untuk memahaminya lebih lengkap.
Referensi :
- GJ Szekely dan ML Rizzo (2009), kovarian jarak Brown , Ann. Appl. Statist. , vol. 3, tidak. 4, 1236–1265.
- GJ Szekely, ML Rizzo dan NK Bakirov (2007), Mengukur dan menguji independensi dengan korelasi jarak , Ann. Statist. , vol. 35, 2769–2794.
- R. Lyons (2012), Jarak kovarians dalam ruang metrik ,
Ann. Mungkin. (muncul).