Dua Variabel Kategorikal
Memeriksa apakah dua variabel kategori independen dapat dilakukan dengan uji independensi Chi-Squared.
Ini adalah tes Chi-Square yang khas : jika kita mengasumsikan bahwa dua variabel independen, maka nilai tabel kontingensi untuk variabel-variabel ini harus didistribusikan secara seragam. Dan kemudian kita periksa seberapa jauh dari seragam nilai sebenarnya.
Ada juga Crammer's V yang merupakan ukuran korelasi yang mengikuti dari tes ini
Contoh
Misalkan kita memiliki dua variabel
- gender: pria dan wanita
- kota: Blois dan Tur
Kami mengamati data berikut:
Apakah gender dan kota mandiri? Mari kita lakukan tes Chi-Squred. Hipotesis kosong: mereka independen, hipotesis alternatif adalah bahwa mereka berkorelasi dalam beberapa cara.
Di bawah hipotesis Null, kami menganggap distribusi seragam. Jadi nilai yang kami harapkan adalah sebagai berikut
Jadi kita menjalankan uji chi-squared dan nilai-p yang dihasilkan di sini dapat dilihat sebagai ukuran korelasi antara kedua variabel ini.
Untuk menghitung V Crammer, pertama-tama kita temukan faktor normalisasi chi-squared-max yang biasanya ukuran sampel, bagi chi-square dengan itu dan ambil akar kuadrat
R
tbl = matrix(data=c(55, 45, 20, 30), nrow=2, ncol=2, byrow=T)
dimnames(tbl) = list(City=c('B', 'T'), Gender=c('M', 'F'))
chi2 = chisq.test(tbl, correct=F)
c(chi2$statistic, chi2$p.value)
Di sini nilai p adalah 0,08 - cukup kecil, tetapi masih belum cukup untuk menolak hipotesis independensi. Jadi kita dapat mengatakan bahwa "korelasi" di sini adalah 0,08
Kami juga menghitung V:
sqrt(chi2$statistic / sum(tbl))
Dan dapatkan 0,14 (semakin kecil v, semakin rendah korelasinya)
Pertimbangkan dataset lain
Gender
City M F
B 51 49
T 24 26
Untuk ini, itu akan memberikan yang berikut
tbl = matrix(data=c(51, 49, 24, 26), nrow=2, ncol=2, byrow=T)
dimnames(tbl) = list(City=c('B', 'T'), Gender=c('M', 'F'))
chi2 = chisq.test(tbl, correct=F)
c(chi2$statistic, chi2$p.value)
sqrt(chi2$statistic / sum(tbl))
Nilai-p adalah 0,72 yang jauh lebih dekat dengan 1, dan v adalah 0,03 - sangat dekat dengan 0
Variabel Kategorikal vs Variabel
Untuk jenis ini kami biasanya melakukan uji ANOVA satu arah : kami menghitung varians dalam grup dan varians intra-grup dan kemudian membandingkannya.
Contoh
Kami ingin mempelajari hubungan antara lemak yang diserap dari donat dengan jenis lemak yang digunakan untuk menghasilkan donat (contoh diambil dari sini )
Apakah ada ketergantungan antar variabel? Untuk itu kami melakukan uji ANOVA dan melihat bahwa nilai-p hanya 0,007 - tidak ada korelasi antara variabel-variabel ini.
R
t1 = c(164, 172, 168, 177, 156, 195)
t2 = c(178, 191, 197, 182, 185, 177)
t3 = c(175, 193, 178, 171, 163, 176)
t4 = c(155, 166, 149, 164, 170, 168)
val = c(t1, t2, t3, t4)
fac = gl(n=4, k=6, labels=c('type1', 'type2', 'type3', 'type4'))
aov1 = aov(val ~ fac)
summary(aov1)
Output adalah
Df Sum Sq Mean Sq F value Pr(>F)
fac 3 1636 545.5 5.406 0.00688 **
Residuals 20 2018 100.9
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Jadi kita dapat mengambil nilai-p sebagai ukuran korelasi di sini juga.
Referensi