Menilai multikolinieritas variabel prediktor dikotomis

8

Saya sedang mengerjakan sebuah proyek di mana kami mengamati perilaku pada suatu tugas (mis. Waktu respons) dan memodelkan perilaku ini sebagai fungsi dari beberapa variabel yang dimanipulasi secara eksperimen serta beberapa variabel yang diamati (jenis kelamin partisipan, IQ partisipan, respons pada tindak lanjut). kuesioner). Saya tidak memiliki kekhawatiran tentang multikolinearitas di antara variabel-variabel eksperimental karena mereka secara khusus dimanipulasi untuk menjadi independen, tetapi saya khawatir tentang variabel-variabel yang diamati. Namun, saya tidak yakin bagaimana menilai independensi di antara variabel yang diamati, sebagian karena saya tampaknya mendapatkan hasil yang agak berbeda tergantung pada bagaimana saya mengatur penilaian, dan juga karena saya tidak terlalu akrab dengan korelasi dalam konteks di mana satu atau kedua variabel tersebut bersifat dikotomis.

Sebagai contoh, berikut adalah dua pendekatan berbeda untuk menentukan apakah seks tidak tergantung pada IQ. Saya bukan penggemar pengujian signifikansi nol hipotesis, jadi dalam kedua pendekatan saya membangun dua model, satu dengan hubungan dan satu tanpa, kemudian menghitung dan rasio kemungkinan log yang dikoreksi AIC:

m1 = lm(IQ ~ 1)
m2 = lm(IQ ~ sex)
LLR1 = AIC(m1)-AIC(m2)

m3 = glm(sex~1,family='binomial')
m4 = glm(sex~IQ,family='binomial')
LLR2 = AIC(m3)-AIC(m4)

Namun, pendekatan ini menghasilkan jawaban yang agak berbeda; LLR1 adalah sekitar 7, menunjukkan bukti kuat yang mendukung suatu hubungan, sementara LLR2 sekitar 0,3, menunjukkan bukti yang sangat lemah yang mendukung suatu hubungan.

Lebih lanjut, jika saya mencoba menilai independensi antara seks dan variabel lain yang diamati dikotomis, "yn", LLR yang dihasilkan juga tergantung pada apakah saya membuat model untuk memprediksi seks dari yn, atau untuk memprediksi yn dari seks.

Adakah saran mengapa perbedaan ini timbul dan bagaimana cara yang paling masuk akal?

— Mike Lawrence
sumber

Apakah seqdalam kode Anda salah ketik untuk sex? Jika Anda menyalin kode analisis Anda, itu mungkin menjadi bagian dari masalah ..

— onestop

oops, itu hanya salah ketik kode yang saya sertakan di atas. Dalam kode aktual saya, saya tidak memiliki kesalahan ketik. Terima kasih sudah menangkap ini.

— Mike Lawrence

3

Saya pikir Anda mencoba untuk menafsirkan P (A | B) dan P (B | A) seolah-olah mereka harus menjadi hal yang sama. Tidak ada alasan bagi mereka untuk menjadi sama, karena aturan produk:

P (A B) = P (A | B) P (B) = P (B | A) P (A)

$P(AB)=P(A|B)P(B)=P(B|A)P(A)$

kecuali maka secara umum. Ini menjelaskan perbedaan dalam kasus "yn". Kecuali jika Anda memiliki tabel "seimbang" (total baris sama dengan total kolom), probabilitas bersyarat (baris dan kolom) tidak akan sama. $P(B)=P(A)$ $P(A|B) \neq P(B|A)$

Tes untuk "independensi logis / statistik" (tetapi bukan independensi kausal) antara variabel kategori dapat diberikan sebagai:

T = \sum_{i j} O_{i j} l o g (\frac{O_{i j}}{E_{i j}})

$T=\sum_{ij} O_{ij} log\Big(\frac{O_{ij}}{E_{ij}}\Big)$

Di mana mengindeks sel-sel tabel (jadi dalam contoh Anda, ). adalah nilai yang diamati dalam tabel, dan adalah apa yang "diharapkan" di bawah independensi, yang merupakan produk dari marginal $ij$ $ij=11,12,21,22$ $O_{ij}$ $E_{ij}$

E_{i j} = O_{∙ ∙} \frac{O_{i ∙}}{O_{∙ ∙}} \frac{O_{∙ j}}{O_{∙ ∙}} = \frac{O_{i ∙} O_{∙ j}}{O_{∙ ∙}}

$E_{ij}=O_{\bullet \bullet}\frac{O_{i \bullet}}{O_{\bullet \bullet}}\frac{O_{\bullet j}}{O_{\bullet \bullet}} =\frac{O_{i \bullet}O_{\bullet j}}{O_{\bullet \bullet}}$

Di mana " " menunjukkan bahwa Anda menjumlahkan lebih dari indeks itu. Anda dapat menunjukkan bahwa jika Anda memiliki nilai log-odds sebelumnya untuk independensi maka peluang log-posterior adalah . Hipotesis alternatif adalah (yaitu tidak ada penyederhanaan, tidak ada independensi), dimana . Dengan demikian T mengatakan "seberapa kuat" data mendukung non-kemerdekaan, dalam kelas distribusi multinomial. Hal yang baik tentang tes ini adalah ia bekerja untuk semua , jadi Anda tidak perlu khawatir tentang tabel "jarang". Tes ini masih akan memberikan hasil yang masuk akal. $\bullet$ $L_{I}$ $L_{I}-T$ $E_{ij}=O_{ij}$ $T=0$ $E_{ij}>0$

Untuk regresi, ini memberitahu Anda bahwa nilai IQ rata-rata berbeda antara dua nilai seks, meskipun saya tidak tahu skala perbedaan AIC (apakah ini "besar"?).

Saya tidak yakin seberapa tepat AIC adalah untuk GLM binomial. Mungkin ide yang lebih baik untuk melihat tabel ANOVA dan deviance masing-masing untuk LM dan GLM.

Juga, sudahkah Anda merencanakan data? selalu plot data !!! ini akan dapat memberi tahu Anda hal-hal yang tidak diuji oleh tes. Seberapa berbeda tampilan IQ ketika diplot berdasarkan jenis kelamin? bagaimana perbedaan jenis kelamin ketika diplot oleh IQ?

— probabilityislogic
sumber

3

Mengapa Anda khawatir tentang multikolinearitas? Satu-satunya alasan kami memerlukan asumsi ini dalam regresi adalah untuk memastikan kami mendapatkan taksiran unik. Multikolinearitas hanya penting untuk estimasi ketika itu sempurna --- ketika satu variabel adalah kombinasi linear yang tepat dari yang lain.

Jika variabel yang dimanipulasi secara eksperimental Anda ditetapkan secara acak, maka korelasinya dengan prediktor yang diamati serta faktor yang tidak teramati harus (kira-kira) 0; asumsi inilah yang membantu Anda mendapatkan perkiraan yang tidak bias.

Yang mengatakan, multikolinearitas yang tidak sempurna dapat membuat kesalahan standar Anda lebih besar, tetapi hanya pada variabel-variabel yang mengalami masalah multikolinearitas. Dalam konteks Anda, kesalahan standar koefisien pada variabel eksperimental Anda tidak boleh terpengaruh.

— Charlie
sumber