Ada dua vektor Boolean, yang hanya berisi 0 dan 1. Jika saya menghitung korelasi Pearson atau Spearman, apakah itu bermakna atau masuk akal?
Ada dua vektor Boolean, yang hanya berisi 0 dan 1. Jika saya menghitung korelasi Pearson atau Spearman, apakah itu bermakna atau masuk akal?
Jawaban:
Korelasi Pearson dan Spearman didefinisikan selama Anda memiliki beberapa s dan beberapa untuk kedua dari dua variabel biner, katakanlah dan . Sangat mudah untuk mendapatkan ide kualitatif yang baik tentang apa yang mereka maksud dengan memikirkan sebaran plot dari dua variabel. Jelas, hanya ada empat kemungkinan (sehingga jittering untuk mengguncang poin yang identik untuk visualisasi adalah ide yang baik). Misalnya, dalam situasi apa pun di mana kedua vektor identik, tunduk pada memiliki beberapa 0s dan beberapa 1s di masing-masing, maka dengan definisi dan korelasi itu harus . Demikian pula, ada kemungkinan bahwadan kemudian korelasinya adalah .
Untuk pengaturan ini, tidak ada ruang untuk hubungan monoton yang tidak linier. Ketika mengambil jajaran dan s di bawah konvensi midrank biasa jajaran hanya transformasi linear yang asli dan dan korelasi Spearman adalah tentu identik dengan korelasi Pearson. Oleh karena itu tidak ada alasan untuk mempertimbangkan korelasi Spearman secara terpisah di sini, atau memang sama sekali.
Korelasi muncul secara alami untuk beberapa masalah yang melibatkan s dan s, misalnya dalam studi proses biner dalam ruang atau waktu. Secara keseluruhan, bagaimanapun, akan ada cara yang lebih baik untuk berpikir tentang data tersebut, sebagian besar tergantung pada motif utama untuk studi tersebut. Sebagai contoh, fakta bahwa korelasi masuk akal tidak berarti bahwa regresi linier adalah cara yang baik untuk memodelkan respons biner. Jika salah satu variabel biner adalah respons, maka sebagian besar orang statistik akan mulai dengan mempertimbangkan model logit.
Ada metrik kesamaan khusus untuk vektor biner, seperti:
dll.
Untuk detailnya, lihat di sini .
Saya tidak akan menyarankan untuk menggunakan koefisien korelasi Pearson untuk data biner, lihat contoh tandingan berikut:
set.seed(10)
a = rbinom(n=100, size=1, prob=0.9)
b = rbinom(n=100, size=1, prob=0.9)
dalam kebanyakan kasus keduanya memberi 1
table(a,b)
> table(a,b)
b
a 0 1
0 0 3
1 9 88
tetapi korelasi tidak menunjukkan ini
cor(a, b, method="pearson")
> cor(a, b, method="pearson")
[1] -0.05530639
Namun ukuran kesamaan biner seperti indeks Jaccard menunjukkan asosiasi yang jauh lebih tinggi:
install.packages("clusteval")
library('clusteval')
cluster_similarity(a,b, similarity="jaccard", method="independence")
> cluster_similarity(a,b, similarity="jaccard", method="independence")
[1] 0.7854966
Kenapa ini? Lihat di sini regresi bivariat sederhana
plot(jitter(a, factor = .25), jitter(b, factor = .25), xlab="a", ylab="b", pch=15, col="blue", ylim=c(-0.05,1.05), xlim=c(-0.05,1.05))
abline(lm(a~b), lwd=2, col="blue")
text(.5,.9,expression(paste(rho, " = -0.055")))
plot di bawah ini (noise kecil ditambahkan untuk membuat jumlah poin lebih jelas)