Koefisien Pearson antara dua variabel cukup tinggi (r = .65). Tetapi ketika saya peringkat nilai variabel dan menjalankan korelasi Spearman, nilai cofficient jauh lebih rendah (r = .30).
- Apa interpretasi dari ini?
Koefisien Pearson antara dua variabel cukup tinggi (r = .65). Tetapi ketika saya peringkat nilai variabel dan menjalankan korelasi Spearman, nilai cofficient jauh lebih rendah (r = .30).
Jawaban:
Jika data Anda terdistribusi normal atau terdistribusi secara seragam, saya akan berpikir bahwa korelasi Spearman dan Pearson harus sama.
Jika mereka memberikan hasil yang sangat berbeda seperti dalam kasus Anda (0,65 vs 0,30), tebakan saya adalah bahwa Anda memiliki data miring atau pencilan, dan pencilan memimpin korelasi Pearson menjadi lebih besar daripada korelasi Spearman. Yaitu, nilai yang sangat tinggi pada X dapat terjadi bersamaan dengan nilai yang sangat tinggi pada Y.
Lihat juga pertanyaan-pertanyaan sebelumnya tentang perbedaan antara korelasi Spearman dan Pearson:
Berikut ini adalah simulasi sederhana tentang bagaimana ini dapat terjadi. Perhatikan bahwa kasus di bawah ini melibatkan pencilan tunggal, tetapi Anda dapat menghasilkan efek yang serupa dengan banyak pencilan atau data miring.
# Set Seed of random number generator
set.seed(4444)
# Generate random data
# First, create some normally distributed correlated data
x1 <- rnorm(200)
y1 <- rnorm(200) + .6 * x1
# Second, add a major outlier
x2 <- c(x1, 14)
y2 <- c(y1, 14)
# Plot both data sets
par(mfrow=c(2,2))
plot(x1, y1, main="Raw no outlier")
plot(x2, y2, main="Raw with outlier")
plot(rank(x1), rank(y1), main="Rank no outlier")
plot(rank(x2), rank(y2), main="Rank with outlier")
# Calculate correlations on both datasets
round(cor(x1, y1, method="pearson"), 2)
round(cor(x1, y1, method="spearman"), 2)
round(cor(x2, y2, method="pearson"), 2)
round(cor(x2, y2, method="spearman"), 2)
Yang memberikan output ini
[1] 0.44
[1] 0.44
[1] 0.7
[1] 0.44
Analisis korelasi menunjukkan bahwa tanpa outlier Spearman dan Pearson sangat mirip, dan dengan outlier yang agak ekstrim, korelasinya sangat berbeda.
Plot di bawah ini menunjukkan bagaimana memperlakukan data sebagai peringkat menghilangkan pengaruh ekstrim dari pencilan, sehingga menyebabkan Spearman menjadi serupa baik dengan dan tanpa pencilan sedangkan Pearson sangat berbeda ketika pencilan ditambahkan. Ini menyoroti mengapa Spearman sering disebut kuat.