Belsley, Kuh, dan Welsch adalah yang teks untuk pergi ke untuk pertanyaan semacam ini. Mereka termasuk diskusi ekstensif tentang diagnostik yang lebih tua di bagian berjudul "Perspektif Historis". Mengenai VIF yang mereka tulis
... Jika kita mengasumsikan data telah terpusat dan ditingkatkan untuk memiliki satuan panjang, korelasi matriks hanya . ...R X ′ XXRX′X
Kami sedang mempertimbangkan . Elemen-elemen diagonal , , sering disebut variance inflation factor, , dan nilai diagnostiknya mengikuti dari relasi mana adalah koefisien korelasi berganda pada variabel penjelas yang tersisa. Jelas VIF tinggi menunjukkan mendekati kesatuan, dan karenanya menunjuk ke collinearity. Oleh karena itu ukuran ini beberapa digunakan sebagai indikasi keseluruhan collinearity. Kelemahannya, seperti R - 1 r i i VIF i VIF i = 1R−1=(X′X)−1R−1riiVIFi R 2 i XiR 2 i R
VIFi=11−R2i
R2iXiR2iR, terletak pada ketidakmampuannya untuk membedakan antara beberapa dependensi yang hidup berdampingan dan tidak adanya batas yang berarti untuk membedakan antara nilai-nilai VIF yang dapat dianggap tinggi dan yang dapat dianggap rendah.
Di tempat menganalisis (atau ), BKW mengusulkan hati-hati, pemeriksaan dikendalikan dari Dekomposisi Nilai Singular dari . Mereka memotivasi itu dengan menunjukkan bahwa rasio terbesar dengan nilai-nilai singular terkecil adalah jumlah kondisi dari dan menunjukkan bagaimana jumlah kondisi menyediakan (pada waktu ketat) batas pada penyebaran komputasi kesalahan dalam perhitungan perkiraan regresi. Mereka melanjutkan untuk mencoba dekomposisi perkiraan varians dari estimasi parameter menjadi komponen yang terkait dengan nilai singular. Kekuatan dekomposisi ini terletak pada kemampuannya (dalam banyak kasus) untuk mengungkapkan sifatnyaR - 1 X X β iRR−1XXβ^i dari collinearity, bukan hanya menunjukkan keberadaannya.
Siapa pun yang telah membangun model regresi dengan ratusan variabel akan menghargai fitur ini! Adalah satu hal bagi perangkat lunak untuk mengatakan "data Anda adalah garis lurus, saya tidak dapat melanjutkan" atau bahkan untuk mengatakan "data Anda berbentuk garis lurus, saya membuang variabel berikut." Sama sekali merupakan hal yang jauh lebih berguna untuk dapat mengatakan "kelompok variabel menyebabkan ketidakstabilan dalam perhitungan: lihat variabel mana yang dapat Anda lakukan tanpa atau pertimbangkan melakukan analisis komponen utama untuk mengurangi jumlah mereka. "Xi1,…,Xik
Pada akhirnya, BKW merekomendasikan mendiagnosis kolinearitas dengan cara
... kondisi ganda berikut:
- Nilai tunggal dinilai memiliki indeks kondisi tinggi, dan yang terkait dengan
- Proporsi dekomposisi varians tinggi untuk dua atau lebih estimasi koefisien koefisien regresi.
Jumlah indeks kondisi yang dianggap besar (katakanlah, lebih besar dari ) dalam (1) mengidentifikasi jumlah ketergantungan dekat di antara kolom-kolom matriks data , dan besarnya indeks kondisi tinggi ini memberikan ukuran keketatan relatif mereka. " Lebih lanjut, penentuan dalam (2) proporsi besar-dekomposisi proporsi (katakanlah, lebih besar dari ) yang terkait dengan setiap indeks kondisi tinggi mengidentifikasi varian-varian yang terlibat dalam dependensi terdekat yang sesuai, dan besarnya proporsi ini dalam hubungannya dengan tinggi indeks kondisi memberikan ukuran sejauh mana estimasi regresi yang sesuai telah diturunkan oleh adanya kolinearitas.X 0,530X0.5