Variabel kategorikal secara efektif hanya seperangkat variabel indikator. Ini adalah ide dasar dari teori pengukuran bahwa variabel seperti itu tidak berubah untuk relabelling dari kategori, sehingga tidak masuk akal untuk menggunakan pelabelan numerik kategori dalam setiap ukuran hubungan antara variabel lain (misalnya, 'korelasi') . Untuk alasan ini, dan ukuran hubungan antara variabel kontinu dan variabel kategorikal harus didasarkan sepenuhnya pada variabel indikator yang berasal dari variabel terakhir.
Mengingat bahwa Anda menginginkan ukuran 'korelasi' antara kedua variabel, masuk akal untuk melihat korelasi antara variabel acak kontinu dan variabel acak indikator I yang berasal dari variabel kategorikal. Membiarkan ϕ ≡ P ( I = 1 ) kita miliki:XIϕ≡P(I=1)
Cov(I,X)=E(IX)−E(I)E(X)=ϕ[E(X|I=1)−E(X)],
pemberian yang mana:
Corr(I,X)=ϕ1−ϕ−−−−−√⋅E(X|I=1)−E(X)S(X).
Jadi korelasi antara variabel acak kontinu dan variabel acak indikator I adalah fungsi yang cukup sederhana dari probabilitas indikator ϕ dan gain terstandarisasi dalam nilai X yang diharapkan dari pengkondisian pada I = 1 . Perhatikan bahwa korelasi ini tidak memerlukan diskritisasi variabel acak kontinu.XIϕXI=1
C1,...,mC=kIk≡I(C=k)
Corr(Ik,X)=ϕk1−ϕk−−−−−−√⋅E(X|C=k)−E(X)S(X).
Corr(C,X)≡(Corr(I1,X),...,Corr(Im,X))
∑kCov(Ik,X)=0Xm−1
(x1,c1),...,(xn,cn)
ϕ^k≡1n∑i=1nI(ci=k).
E^(X)≡x¯≡1n∑i=1nxi.
E^(X|C=k)≡x¯k≡1n∑i=1nxiI(ci=k)/ϕ^k.
S^(X)≡sX≡1n−1∑i=1n(xi−x¯)2−−−−−−−−−−−−−−−√.
X