Saya perhatikan ketika bermain-main dengan model regresi multivariat ada efek multikolinieritas yang kecil tapi nyata, yang diukur dengan faktor inflasi varians, dalam kategori variabel kategori (tentu saja tidak termasuk kategori referensi, tentu saja).
Sebagai contoh, katakanlah kita memiliki dataset dengan variabel kontinu y dan satu variabel kategorikal nominal x yang memiliki k kemungkinan nilai yang saling eksklusif. Kami mengkode nilai-nilai mungkin sebagai 0/1 variabel dummy . Kemudian kita menjalankan model regresi . Skor VIF untuk variabel dummy ternyata tidak nol. Bahkan, ketika jumlah kategori meningkat, VIF meningkat. Memusatkan variabel dummy tampaknya tidak mengubah VIF.
Penjelasan intuitif tampaknya bahwa kondisi yang saling eksklusif dari kategori dalam variabel kategorikal menyebabkan sedikit multikolinieritas ini. Apakah ini temuan yang sepele atau itu masalah yang perlu dipertimbangkan ketika membangun model regresi dengan variabel kategori?