Bagaimana saya tahu kapan harus memilih antara Spearman dan Pearson's ? Variabel saya termasuk kepuasan dan skor ditafsirkan menggunakan jumlah skor. Namun, skor ini juga bisa diurutkan.r
Bagaimana saya tahu kapan harus memilih antara Spearman dan Pearson's ? Variabel saya termasuk kepuasan dan skor ditafsirkan menggunakan jumlah skor. Namun, skor ini juga bisa diurutkan.r
Jawaban:
Jika Anda ingin menjelajahi data Anda, yang terbaik adalah menghitung keduanya, karena hubungan antara korelasi Spearman (S) dan Pearson (P) akan memberikan beberapa informasi. Secara singkat, S dihitung pada peringkat dan menggambarkan hubungan monoton sedangkan P adalah pada nilai-nilai sejati dan menggambarkan hubungan linier.
Sebagai contoh, jika Anda mengatur:
x=(1:100);
y=exp(x); % then,
corr(x,y,'type','Spearman'); % will equal 1, and
corr(x,y,'type','Pearson'); % will be about equal to 0.25
Ini karena meningkat secara monoton dengan sehingga korelasi Spearman sempurna, tetapi tidak linear, sehingga korelasi Pearson tidak sempurna. x
corr(x,log(y),'type','Pearson'); % will equal 1
Melakukan keduanya menarik karena jika Anda memiliki S> P, itu berarti Anda memiliki korelasi yang monotonik tetapi tidak linier. Karena bagus untuk memiliki linearitas dalam statistik (lebih mudah) Anda dapat mencoba menerapkan transformasi pada (log seperti itu).
Saya harap ini membantu membuat perbedaan antara jenis korelasi lebih mudah untuk dipahami.
Jawaban terpendek dan sebagian besar benar adalah:
Pearson tolok ukur hubungan linier , Spearman tolok ukur hubungan monotonik (beberapa kasus tak terhingga lebih umum, tetapi untuk beberapa tradeoff kekuatan).
Jadi, jika Anda menganggap / menganggap bahwa relasi itu linier (atau, sebagai kasus khusus, bahwa itu adalah dua ukuran dari hal yang sama, maka relasinya adalah ) dan situasinya tidak terlalu kaku. (periksa jawaban lain untuk perincian), gunakan Pearson. Kalau tidak gunakan Spearman.
Ini sering terjadi dalam statistik: ada berbagai metode yang dapat diterapkan dalam situasi Anda, dan Anda tidak tahu mana yang harus dipilih. Anda harus mendasarkan keputusan Anda pro dan kontra dari metode yang dipertimbangkan dan spesifik masalah Anda, tetapi bahkan keputusan itu biasanya subyektif tanpa jawaban "benar" yang disepakati. Biasanya merupakan ide yang bagus untuk mencoba sebanyak mungkin metode yang masuk akal dan kesabaran Anda akan memungkinkan dan melihat mana yang memberi Anda hasil terbaik pada akhirnya.
Perbedaan antara korelasi Pearson dan korelasi Spearman adalah bahwa Pearson paling tepat untuk pengukuran yang diambil dari skala interval , sedangkan Spearman lebih tepat untuk pengukuran yang diambil dari skala ordinal . Contoh skala interval termasuk "suhu dalam Farenheit" dan "panjang dalam inci", di mana masing-masing unit (1 derajat F, 1 inci) bermakna. Hal-hal seperti "skor kepuasan" cenderung bertipe ordinal karena walaupun jelas bahwa "5 kebahagiaan" lebih bahagia daripada "3 kebahagiaan", tidak jelas apakah Anda bisa memberikan interpretasi yang bermakna tentang "1 unit kebahagiaan". Tetapi ketika Anda menambahkan banyak pengukuran dari tipe ordinal, yang adalah apa yang Anda miliki dalam kasus Anda, Anda berakhir dengan pengukuran yang sebenarnya bukan ordinal atau interval, dan sulit untuk diinterpretasikan.
Saya akan merekomendasikan agar Anda mengubah skor kepuasan Anda menjadi skor kuantil dan kemudian bekerja dengan jumlah dari mereka, karena ini akan memberi Anda data yang sedikit lebih bisa diterima untuk interpretasi. Tetapi bahkan dalam kasus ini tidak jelas apakah Pearson atau Spearman akan lebih tepat.
Saya bertemu dengan kasing yang menarik hari ini.
Jika kita melihat jumlah sampel yang sangat kecil, perbedaan antara Spearman dan Pearson bisa sangat dramatis.
Dalam kasus di bawah ini, kedua metode melaporkan korelasi yang sangat berlawanan .
Beberapa aturan praktis untuk memutuskan Spearman vs Pearson:
ps Berikut adalah kode R untuk mereproduksi grafik di atas:
# Script that shows that in some corner cases, the reported correlation for spearman can be
# exactly opposite to that for pearson. In this case, spearman is +0.4 and pearson is -0.4.
y = c(+2.5,-0.5, -0.8, -1)
x = c(+0.2,-3, -2.5,+0.6)
plot(y ~ x,xlim=c(-6,+6),ylim=c(-1,+2.5))
title("Correlation: corner case for Spearman vs. Pearson\nNote that they are exactly opposite each other (-0.4 vs. +0.4)")
abline(v=0)
abline(h=0)
lm1=lm(y ~ x)
abline(lm1,col="red")
spearman = cor(y,x,method="spearman")
pearson = cor(y,x,method="pearson")
legend("topleft",
c("Red line: regression.",
sprintf("Spearman: %.5f",spearman),
sprintf("Pearson: +%.5f",pearson)
))
Sementara setuju dengan jawaban charles, saya akan menyarankan (pada tingkat praktis) bahwa Anda menghitung kedua koefisien dan melihat perbedaannya. Dalam banyak kasus, mereka akan persis sama, jadi Anda tidak perlu khawatir.
Namun, jika mereka berbeda maka Anda perlu melihat apakah Anda memenuhi asumsi Pearsons (varians dan linearitas konstan) dan jika ini tidak terpenuhi, Anda mungkin lebih baik menggunakan Spearmans.