Bagaimana perbandingan antara gamma Goodman-Kruskal dan Kendall tau atau Spearman rho?

31

Dalam pekerjaan saya, kami membandingkan peringkat yang diprediksi dengan peringkat yang benar untuk beberapa set data. Hingga saat ini, kami telah menggunakan Kendall-Tau sendirian. Sekelompok yang mengerjakan proyek serupa menyarankan agar kami mencoba menggunakan Goodman-Kruskal Gamma sebagai gantinya, dan mereka lebih menyukainya. Saya bertanya-tanya apa perbedaan antara algoritma korelasi peringkat yang berbeda.

Jawaban terbaik yang saya temukan adalah jawaban ini , yang mengklaim Spearman digunakan sebagai pengganti korelasi linear biasa, dan bahwa Kendall-Tau kurang langsung dan lebih mirip dengan Goodman-Kruskal Gamma. Data yang saya kerjakan tampaknya tidak memiliki korelasi linier yang jelas, dan data tersebut sangat miring dan tidak normal.

Juga, Spearman umumnya melaporkan korelasi yang lebih tinggi daripada Kendall-Tau untuk data kami, dan saya bertanya-tanya apa yang dikatakan tentang data itu secara spesifik. Saya bukan ahli statistik, jadi beberapa makalah yang saya baca tentang hal-hal ini sepertinya seperti jargon bagi saya, maaf.

spearman-rho kendall-tau goodman-kruskal-gamma

— Poik
sumber

3

" Spearman umumnya melaporkan korelasi yang lebih baik daripada Kendall-Tau untuk data kami, dan saya bertanya-tanya apa yang dikatakan tentang data secara khusus " ... kemungkinan tidak ada; Kendall

τ

$\tau$ adalah sering lebih dekat 0 dari Spearman

ρ

$\rho$ ketika korelasi tidak benar-benar dekat dengan

0

$0$ atau

\pm 1

$\pm 1$ - mengukur asosiasi berbeda; fakta bahwa ukurannya biasanya lebih kecil tidak berarti bahwa korelasi Spearman 'lebih baik'; mereka hanya mengukur berbagai hal tentang data. Apa yang akan mengarahkan Anda untuk mengatakan 'korelasi yang lebih baik'?

— Glen_b -Reinstate Monica

1

Itu secara tidak langsung sama dengan pertanyaan saya, @Glen_b; kecuali, saya bertanya mengapa algoritma melaporkan korelasi yang lebih tinggi dan apa yang menyebabkannya. Saya akan mengubah "lebih baik" menjadi "lebih tinggi" sehingga untuk membuat makna saya sedikit lebih jelas. Anda benar bahwa mereka mengukur hal-hal yang berbeda, dan bahwa jumlahnya tidak terlalu banyak berhubungan satu sama lain, tetapi saya ingin tahu apa arti angka-angka itu, yang dijawab secara terperinci di bawah ini.

— Poik

29

Spearman rho vs Kendall tau . Keduanya sangat berbeda secara komputasi sehingga Anda tidak dapat secara langsung membandingkan besaran mereka. Spearman biasanya lebih tinggi dengan 1/4 hingga 1/3 dan ini membuat orang salah menyimpulkan bahwa Spearman "lebih baik" untuk dataset tertentu. Perbedaan antara rho dan tau adalah dalam ideologi mereka, proporsi varian untuk rho dan probabilitas untuk tau. Rho adalah Pearson r yang biasa diterapkan untuk data peringkat, dan seperti r, lebih sensitif terhadap poin dengan momen besar (yaitu, penyimpangan dari pusat cloud) daripada poin dengan momen kecil. Karena itu rho cukup peka terhadap bentuk awan setelah pemeringkatanselesai: koefisien untuk awan belah ketupat akan lebih tinggi dari koefisien untuk awan berkepala lonjong (karena tepi tajam dari yang pertama adalah momen besar). Tau adalah ekstensi Gamma dan sama-sama sensitif terhadap semua titik data , sehingga kurang sensitif terhadap kekhasan bentuk awan peringkat. Tau lebih "umum" daripada rho, karena rho dijamin hanya ketika Anda percaya hubungan yang mendasar (model, atau fungsional dalam populasi) antara variabel-variabelnya sangat monoton. Sementara Tau memungkinkan untuk kurva yang mendasari nonmonotonik dan ukuran yang "tren" monotonik, positif atau negatif, berlaku di sana secara keseluruhan. Rho sebanding dengan r dalam besarnya; tau tidak.

Kendall tau sebagai Gamma . Tau hanyalah bentuk standar Gamma. Beberapa tindakan terkait semuanya memiliki pembilang tetapi berbeda dalam normalisasi penyebut : $P-Q$

Gamma: $P+Q$
Somers 'D ("x dependen"): $P+Q+T_x$
Somers 'D ("y dependen"): $P+Q+T_y$
Somers 'D ("symmetric"): mean aritmatika dari dua di atas
Kendall's Tau-b corr. (paling cocok untuk tabel persegi): rerata geometris dari keduanya
Kendall's Tau-c corr. (paling cocok untuk tabel persegi panjang): $N^2(k-1)/(2k)$
Kendall's Tau-a corr. (membuat tidak ada penyesuaian untuk ikatan): $N(N-1)/2 = P+Q+T_x+T_y+T_{xy}$

di mana - jumlah pasangan pengamatan dengan "konkordansi", - dengan "inversi"; - jumlah ikatan menurut variabel X, - oleh variabel Y, - oleh kedua variabel; - jumlah pengamatan, - jumlah nilai yang berbeda dalam variabel di mana jumlah ini kurang. $P$ $Q$ $T_x$ $T_y$ $T_{xy}$ $N$ $k$

Dengan demikian, tau secara langsung dapat dibandingkan secara teori dan besarnya dengan Gamma. Rho secara langsung dapat dibandingkan secara teori dan besarnya dengan Pearson . Jawaban Nick Stauner yang bagus di sini menceritakan bagaimana mungkin membandingkan rho dan tau secara tidak langsung. $r$

Lihat juga tentang tau dan rho.

— ttnphns
sumber

14

Berikut ini kutipan dari Andrew Gilpin (1993) yang mengadvokasi Maurice Kendall atas Spearman untuk alasan teoretis: $τ$ $ρ$

[Kendall's ] mendekati distribusi normal lebih cepat daripada , karena , ukuran sampel, meningkat; dan juga lebih mudah ditelusur secara matematis, terutama ketika ada ikatan. $τ$ $ρ$ $N$ $τ$

Saya tidak bisa menambahkan banyak tentang Goodman-Kruskal , selain itu tampaknya menghasilkan perkiraan yang sedikit lebih besar dari pada Kendall $γ$ dalam sampel data survei yang telah saya kerjakan belakangan ini ... dan tentu saja, terasa perkiraan lebih rendah dari Spearman . Namun, saya juga mencoba menghitung beberapaperkiraan parsial(Foraita & Sobotka, 2012), dan yang keluar lebih dekat ke parsialdaripada parsial... Butuh waktu pemrosesan yang cukup lama, jadi saya akan pergi tes simulasi atau perbandingan matematis dengan orang lain ... (siapa yang tahu bagaimana melakukannya ...) $τ$ $ρ$ $γ$ $ρ$ $τ$

Seperti yang disiratkan oleh ttnphns , Anda tidak dapat menyimpulkan bahwa estimasi Anda lebih baik daripada estimasi Anda dengan besarnya saja, karena skala mereka berbeda (meskipun batasnya tidak). Gilpin mengutip Kendall (1962) yang menggambarkan rasio ke sekitar 1,5 dari sebagian besar kisaran nilai. Mereka semakin dekat secara bertahap ketika besaran mereka meningkat, sehingga ketika keduanya mendekati 1 (atau -1), perbedaannya menjadi sangat kecil. Gilpin memberikan tabel besar yang bagus dari nilai-nilai ekuivalen , , , d , dan ke digit ketiga untuk $ρ$ $τ$ $ρ$ $τ$ $ρ$ $r$ $r^2$ $Z_r$ $τ$ pada setiap kenaikan 0,01 di kisarannya, sama seperti yang Anda harapkan untuk melihat di dalam sampul buku teks statistik intro. Dia mendasarkan nilai-nilai itu pada formula khusus Kendall, yaitu sebagai berikut: (Saya menyederhanakan rumus ini untukdari bentuk di mana Gilpin menulis, yang dalam hal Pearson's.)

\begin{aligned} r & = \sin (τ \cdot \frac{π}{2}) \\ ρ & = \frac{6}{π} (τ \cdot \arcsin (\frac{\sin (τ \cdot \frac{π}{2})}{2})) \end{aligned}

$\begin{aligned} r &= \sin\bigg(\tau\cdot\frac \pi 2 \bigg) \\ \rho &= \frac 6 \pi \bigg(\tau\cdot\arcsin \bigg(\frac{\sin(\tau\cdot\frac \pi 2)} 2 \bigg)\bigg) \end{aligned}$

ρ

$ρ$

r

$r$

Mungkin masuk akal untuk mengubah Anda menjadi $τ$ $ρ$ dan melihat bagaimana perubahan komputasi memengaruhi estimasi ukuran efek Anda. Tampaknya perbandingan akan memberikan beberapa indikasi sejauh mana masalah Spearman lebih sensitif hadir dalam data Anda, jika sama sekali. Metode yang lebih langsung pasti ada untuk mengidentifikasi setiap masalah spesifik secara individual; saran saya akan menghasilkan lebih banyak ukuran efek omnibus cepat dan kotor untuk masalah tersebut. Jika tidak ada perbedaan (setelah mengoreksi perbedaan dalam skala), maka orang mungkin berpendapat tidak perlu mencari lebih lanjut untuk masalah yang hanya berlaku untuk $ρ$ $ρ$ . Jika ada perbedaan besar, maka mungkin saatnya untuk mengeluarkan lensa pembesar untuk menentukan apa yang bertanggung jawab.

Saya tidak yakin bagaimana orang biasanya melaporkan ukuran efek ketika menggunakan Kendall's $τ$ (sayangnya sejauh yang orang khawatir tentang melaporkan ukuran efek secara umum), tetapi karena nampaknya pembaca yang tidak terbiasa akan mencoba menafsirkannya pada skala Pearson's. , mungkin bijaksana untuk melaporkan statistik Anda dan ukuran efeknya pada skala menggunakan rumus konversi di atas ... atau setidaknya tunjukkan perbedaan skala dan berikan teriakan kepada Gilpin untuk tabel konversi yang berguna . $r$ $τ$ $r$

Referensi

Foraita, R., & Sobotka, F. (2012). Validasi model grafis. Paket gmvalid, v1.23. Jaringan Arsip R Komprehensif. URL: http://cran.r-project.org/web/packages/gmvalid/gmvalid.pdf

Gilpin, AR (1993). Tabel untuk konversi Kendall's Tau ke Spearman's Rho dalam konteks mengukur besarnya efek untuk meta-analisis. Pengukuran Pendidikan dan Psikologis, 53 (1), 87-92.

Kendall, MG (1962). Metode korelasi peringkat (edisi ke-3). London: Griffin.

— Nick Stauner
sumber

9

$\rho$ $\tau$ $\gamma$ $\gamma$ $\tau$ $X$ $Y$ $\gamma$ $X_{1}$ $X_{2}$ $Y$ $X$ $X$ $X$ $\gamma$

— Frank Harrell
sumber

2

Frank, dapatkah Anda menjelaskannya Spearman's ρ is related to the probability of majority concordance among random triplets of observationslebih terinci, tidak terlalu sulit secara matematis, jika memungkinkan? Terima kasih.

— ttnphns

1

Saya membaca itu bertahun-tahun yang lalu, mungkin dalam teks statistik nonparametrik. Saya tidak dapat menemukan referensi.

— Frank Harrell

1

Sayangnya ... :-( Karena pernyataan itu sendiri sangat menarik.

— ttnphns