Dibutuhkan sangat sedikit korelasi di antara variabel independen untuk menyebabkan ini.
Untuk mengetahui alasannya, coba yang berikut ini:
Gambar 50 set sepuluh vektor dengan koefisien di dalam standar normal.( x1, x2, ... , x10)
Hitung untuki=1,2,…,9. Hal ini membuatyistandar secara individu normal, tetapi dengan beberapa korelasi antara mereka.ysaya= ( xsaya+ xi + 1) / 2-√i = 1 , 2 , … , 9ysaya
Hitung . Perhatikan bahwa w = √w = x1+ x2+ ⋯ + x10.w = 2-√( y1+ y3+ y5+ y7+ y9)
Tambahkan beberapa kesalahan independen yang didistribusikan secara normal ke . Dengan sedikit eksperimen saya menemukan bahwa z = w + ε dengan ε ∼ N ( 0 , 6 ) bekerja cukup baik. Dengan demikian, z adalah jumlah dari x i ditambah beberapa kesalahan. Itu juga merupakan jumlah dari beberapa yang y i ditambah kesalahan yang sama.wz= w + εε ∼ N( 0 , 6 )zxsayaysaya
Kami akan menganggap sebagai variabel independen dan z variabel dependen.ysayaz
Berikut adalah matriks sebar satu dataset tersebut, dengan di bagian atas dan kiri dan y saya melanjutkan dalam rangka.zysaya
Korelasi yang diharapkan antara dan y j adalah 1 / 2 saat | i - j | = 1 dan 0 sebaliknya. Korelasi terwujud berkisar hingga 62%. Mereka muncul sebagai scatterplot yang lebih rapat di sebelah diagonal.ysayayj1 / 2| i-j | =10
Lihatlah regresi terhadap y i :zysaya
Source | SS df MS Number of obs = 50
-------------+------------------------------ F( 9, 40) = 4.57
Model | 1684.15999 9 187.128887 Prob > F = 0.0003
Residual | 1636.70545 40 40.9176363 R-squared = 0.5071
-------------+------------------------------ Adj R-squared = 0.3963
Total | 3320.86544 49 67.7727641 Root MSE = 6.3967
------------------------------------------------------------------------------
z | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
y1 | 2.184007 1.264074 1.73 0.092 -.3707815 4.738795
y2 | 1.537829 1.809436 0.85 0.400 -2.119178 5.194837
y3 | 2.621185 2.140416 1.22 0.228 -1.704757 6.947127
y4 | .6024704 2.176045 0.28 0.783 -3.795481 5.000421
y5 | 1.692758 2.196725 0.77 0.445 -2.746989 6.132506
y6 | .0290429 2.094395 0.01 0.989 -4.203888 4.261974
y7 | .7794273 2.197227 0.35 0.725 -3.661333 5.220188
y8 | -2.485206 2.19327 -1.13 0.264 -6.91797 1.947558
y9 | 1.844671 1.744538 1.06 0.297 -1.681172 5.370514
_cons | .8498024 .9613522 0.88 0.382 -1.093163 2.792768
------------------------------------------------------------------------------
Statistik F sangat signifikan tetapi tidak ada variabel independen, bahkan tanpa penyesuaian untuk semua dari mereka.
zysaya
Source | SS df MS Number of obs = 50
-------------+------------------------------ F( 5, 44) = 7.77
Model | 1556.88498 5 311.376997 Prob > F = 0.0000
Residual | 1763.98046 44 40.0904649 R-squared = 0.4688
-------------+------------------------------ Adj R-squared = 0.4085
Total | 3320.86544 49 67.7727641 Root MSE = 6.3317
------------------------------------------------------------------------------
z | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
y1 | 2.943948 .8138525 3.62 0.001 1.303736 4.58416
y3 | 3.403871 1.080173 3.15 0.003 1.226925 5.580818
y5 | 2.458887 .955118 2.57 0.013 .533973 4.383801
y7 | -.3859711 .9742503 -0.40 0.694 -2.349443 1.577501
y9 | .1298614 .9795983 0.13 0.895 -1.844389 2.104112
_cons | 1.118512 .9241601 1.21 0.233 -.7440107 2.981034
------------------------------------------------------------------------------
Beberapa variabel ini sangat signifikan, bahkan dengan penyesuaian Bonferroni. (Ada banyak lagi yang bisa dikatakan dengan melihat hasil ini, tetapi itu akan membawa kita menjauh dari poin utama.)
zy2, y4, y6, y8z
ysaya
Satu kesimpulan yang dapat kita tarik dari ini adalah bahwa ketika terlalu banyak variabel dimasukkan dalam model mereka dapat menutupi yang benar-benar signifikan. Tanda pertama dari ini adalah statistik F keseluruhan yang sangat signifikan disertai dengan t-tes yang tidak terlalu signifikan untuk koefisien individu. (Bahkan ketika beberapa variabel secara individual signifikan, ini tidak secara otomatis berarti yang lain tidak. Itulah salah satu cacat dasar dari strategi regresi bertahap: mereka menjadi korban masalah penyembunyian ini.) Kebetulan, faktor inflasi variansdalam rentang regresi pertama dari 2,55 hingga 6,09 dengan rata-rata 4,79: tepat di garis batas mendiagnosis beberapa multikolinieritas menurut aturan praktis yang paling konservatif; jauh di bawah ambang batas sesuai dengan aturan lain (di mana 10 adalah batas atas).