Multikolinearitas ketika regresi individu signifikan, tetapi VIF rendah


13

Saya memiliki 6 variabel ( x1...x6 ) bahwa saya menggunakan untuk memprediksi y . Saat melakukan analisis data, saya pertama kali mencoba regresi linier berganda. Dari ini, hanya dua variabel yang signifikan. Namun, ketika saya menjalankan regresi linier yang membandingkan setiap variabel secara individual dengan y , semua kecuali satu adalah signifikan ( hal mana saja dari kurang dari 0,01 menjadi kurang dari 0,001). Disarankan bahwa ini karena multikolinearitas.

Penelitian awal saya tentang ini menyarankan untuk memeriksa multikolinieritas dengan menggunakan VIF . Saya mengunduh paket yang sesuai dari R, dan berakhir dengan VIF yang dihasilkan: 3.35, 3.59, 2.64, 2.24, dan 5.56. Menurut berbagai sumber online, poin Anda harus khawatir tentang multikolinearitas dengan VIF Anda adalah pada 4 atau 5.

Saya sekarang bingung tentang apa artinya ini untuk data saya. Apakah saya atau saya tidak memiliki masalah multikolinieritas? Jika saya melakukannya, lalu bagaimana saya harus melanjutkan? (Saya tidak dapat mengumpulkan lebih banyak data, dan variabelnya adalah bagian dari model yang tidak jelas terkait) Jika saya tidak memiliki masalah ini, maka apa yang harus saya ambil dari data saya, terutama fakta bahwa variabel-variabel ini sangat signifikan secara individual, tetapi tidak signifikan sama sekali ketika dikombinasikan.

Sunting: Beberapa pertanyaan telah diajukan mengenai dataset, dan jadi saya ingin memperluas ...

Dalam kasus khusus ini, kami ingin memahami bagaimana isyarat sosial tertentu (gesture, tatapan, dll) mempengaruhi kemungkinan seseorang menghasilkan isyarat lainnya. Kami ingin model kami menyertakan semua atribut yang signifikan, jadi saya tidak nyaman menghapus beberapa yang tampak berlebihan.

Tidak ada hipotesis dengan ini sekarang. Sebaliknya, masalahnya tidak dipelajari, dan kami mencari untuk mendapatkan pemahaman yang lebih baik tentang atribut apa yang penting. Sejauh yang saya tahu, atribut-atribut ini harus relatif independen satu sama lain (Anda tidak bisa hanya mengatakan bahwa tatapan dan gerak tubuh adalah sama, atau satu himpunan bagian dari yang lain). Alangkah baiknya bisa melaporkan nilai p untuk semuanya, karena kami ingin peneliti lain memahami apa yang telah dilihat.

Sunting 2: Karena muncul di suatu tempat di bawah ini, saya adalah 24.n


Dengan anggapan Anda memang memiliki multikolinieritas, dapatkah Anda memperluas, seperti yang disarankan @ rolando2, pada tujuan model yang dimaksud? Apakah ini masalahnya bahwa semua prediktor penting bagi simpatisan lain (dalam hal ini Anda ingin melaporkan tingkat signifikansi untuk masing-masing), atau bisakah Anda membuang satu atau dua dari mereka?

@jlovegren Saya menambahkan beberapa informasi di atas - beri tahu saya jika Anda memerlukan informasi lebih lanjut.
cryptic_star

Apakah variabel penjelas diukur pada skala kontinu? Dalam hal ini, ada metode untuk residualisasi yang tidak terlalu sulit. Jika mereka kategorikal, saya tidak tahu tetapi saya berharap orang lain mau (saya telah mengajukan pertanyaan serupa di situs ini).

@jlovegren Lima dari enam variabel adalah jumlah.
cryptic_star

satu hal lagi, hanya untuk memastikan. apakah penghitungan memiliki batas atas yang jelas yang sering dicapai, atau jika nilai maksimum penghitungan pada prinsipnya tidak terbatas?

Jawaban:


18

Untuk memahami apa yang bisa terjadi, penting untuk menghasilkan (dan menganalisis) data yang berperilaku seperti yang dijelaskan.

Untuk mempermudah, mari kita lupakan variabel independen keenam itu. Jadi, pertanyaannya menggambarkan regresi satu variabel dependen terhadap lima variabel independen x 1 , x 2 , x 3 , x 4 , x 5 , di manayx1,x2,x3,x4,x5

  • Setiap regresi biasa signifikan pada level dari 0,01 menjadi kurang dari 0,001 .yxsaya0,010,001

  • Regresi berganda menghasilkan koefisien signifikan hanya untuk x 1 dan x 2 .yx1++x5x1x2

  • Semua variance inflation factor (VIFs) rendah, menunjukkan pengondisian yang baik dalam matriks desain (yaitu, kurangnya collinearity di antara ).xsaya

Mari kita wujudkan ini sebagai berikut:

  1. Hasilkan nilai yang terdistribusi normal untuk x 1 dan x 2 . (Kami akan memilih n nanti.)nx1x2n

  2. Biarkan mana ε adalah kesalahan normal rata-rata 0 . Beberapa percobaan dan kesalahan diperlukan untuk menemukan standar deviasi yang cocok untuk ε ; 1 / 100 bekerja dengan baik (dan agak dramatis: y adalah sangat baik berkorelasi dengan x 1 dan x 2 , meskipun itu hanya cukup berkorelasi dengan x 1 dan x 2 individual).y=x1+x2+εε0ε1/100yx1x2x1x2

  3. Biarkan = x 1 / 5 + δ , j = 3 , 4 , 5 , di mana δ independen standard error normal. Ini membuat x 3 , x 4 , x 5 hanya sedikit bergantung pada x 1 . Namun, melalui korelasi erat antara x 1 dan y , menginduksi ini kecil korelasi antara y dan ini x j .xjx1/5+δj=3,4,5δx3,x4,x5x1x1yyxj

Inilah intinya: jika kita membuat cukup besar, korelasi kecil ini akan menghasilkan koefisien yang signifikan, meskipun y hampir seluruhnya "dijelaskan" oleh hanya dua variabel pertama.ny

Saya menemukan bahwa berfungsi dengan baik untuk mereproduksi nilai p yang dilaporkan. Berikut adalah matriks sebar dari keenam variabel:n=500

spm

Dengan memeriksa kolom kanan (atau baris bawah) Anda dapat melihat bahwa memiliki korelasi (positif) yang baik dengan x 1 dan x 2 tetapi sedikit korelasi nyata dengan variabel lainnya. Dengan memeriksa sisa dari matriks ini, Anda dapat melihat bahwa variabel independen x 1 , ... , x 5 tampaknya saling tidak berkorelasi (acak δyx1x2x1,,x5δsembunyikan dependensi kecil yang kita tahu ada di sana.) Tidak ada data luar biasa - tidak ada yang sangat terpencil atau dengan leverage tinggi. Histogram menunjukkan bahwa keenam variabel terdistribusi secara normal, dengan cara: data ini seperti biasa dan "vanilla biasa" seperti yang mungkin diinginkan.

Dalam regresi terhadap x 1 dan x 2 , nilai-p pada dasarnya adalah 0. Dalam regresi individu y terhadap x 3 , maka y terhadap x 4 , dan y terhadap x 5 , nilai-p adalah 0,0024, 0,0083 , dan 0,00064, masing-masing: yaitu, mereka "sangat signifikan." Tetapi dalam regresi berganda penuh, nilai-p yang sesuai masing-masing mengembang menjadi 0,46, .36, dan .52: tidak signifikan sama sekali. Alasan untuk ini adalah bahwa sekali y telah diregresikan terhadap x 1 dan xyx1x2yx3yx4yx5yx1 , satu-satunya hal yang tersisa untuk "menjelaskan" adalah jumlah kecil dari kesalahan dalam residual, yang akan mendekati ε , dan kesalahan ini hampir sama sekali tidak berhubungan dengan sisa x i . ( "Hampir" benar: ada hubungan sangat kecil diinduksi dari fakta bahwa residual dihitung sebagian dari nilai-nilai x 1 dan x 2 dan x i , i = 3 , 4 , 5 , jangan memiliki beberapa lemah hubungan dengan x 1 dan x 2. Hubungan residual ini praktis tidak terdeteksi, seperti yang kita lihat.)x2εxix1x2xii=3,4,5x1x2

Jumlah pengkondisian dari matriks desain hanya 2,17: itu sangat rendah, tidak menunjukkan indikasi multikolinieritas tinggi apa pun. (Kurang sempurna collinearity akan tercermin dalam angka 1 pengkondisian, tetapi dalam praktiknya ini hanya terlihat dengan data buatan dan percobaan yang dirancang. Angka-angka pengkondisian dalam kisaran 1-6 (atau bahkan lebih tinggi, dengan lebih banyak variabel) tidak biasa-biasa saja.) Ini melengkapi simulasi: ia telah berhasil mereproduksi setiap aspek dari masalah.

Wawasan penting yang ditawarkan analisis ini mencakup

  1. p-values ​​tidak memberi tahu kita secara langsung tentang collinearity. Mereka sangat bergantung pada jumlah data.

  2. Hubungan antara nilai-p dalam regresi berganda dan nilai-p dalam regresi terkait (melibatkan himpunan bagian dari variabel independen) adalah kompleks dan biasanya tidak dapat diprediksi.

Konsekuensinya, seperti yang orang lain katakan, nilai-p tidak boleh menjadi satu-satunya panduan Anda (atau bahkan panduan utama Anda) untuk pemilihan model.


Edit

Tidak perlu untuk sebesar 500 untuk fenomena ini muncul. n500 Terinspirasi oleh informasi tambahan dalam pertanyaan, berikut ini adalah dataset yang dibangun dengan cara yang sama dengan (dalam hal ini x j = 0,4 x 1 + 0,4 x 2 + δ untuk j = 3 , 4 , 5 ). Ini menciptakan korelasi 0,38 hingga 0,73 antara x 1 - 2 dan x 3 - 5n=24xj=0.4x1+0.4x2+δj=3,4,5x12x35. Jumlah syarat dari matriks desain adalah 9.05: sedikit tinggi, tetapi tidak mengerikan. (Beberapa aturan praktis mengatakan bahwa angka kondisi setinggi 10 adalah ok.) Nilai-p dari regresi individu terhadap adalah 0,002, 0,015, dan 0,008: signifikan hingga sangat signifikan. Dengan demikian, beberapa multikolinearitas terlibat, tetapi tidak terlalu besar sehingga seseorang akan berusaha mengubahnya. : signifikansi dan multikolinearitas adalah hal yang berbeda; hanya kendala matematika ringan yang ada di antara mereka; dan dimungkinkan untuk inklusi atau eksklusi bahkan satu variabel tunggal untuk memiliki efek mendalam pada semua nilai-p bahkan tanpa multikolinieritas parah menjadi masalah.x3,x4,x5Wawasan dasar tetap sama

x1 x2 x3 x4 x5 y
-1.78256    -0.334959   -1.22672    -1.11643    0.233048    -2.12772
0.796957    -0.282075   1.11182 0.773499    0.954179    0.511363
0.956733    0.925203    1.65832 0.25006 -0.273526   1.89336
0.346049    0.0111112   1.57815 0.767076    1.48114 0.365872
-0.73198    -1.56574    -1.06783    -0.914841   -1.68338    -2.30272
0.221718    -0.175337   -0.0922871  1.25869 -1.05304    0.0268453
1.71033 0.0487565   -0.435238   -0.239226   1.08944 1.76248
0.936259    1.00507 1.56755 0.715845    1.50658 1.93177
-0.664651   0.531793    -0.150516   -0.577719   2.57178 -0.121927
-0.0847412  -1.14022    0.577469    0.694189    -1.02427    -1.2199
-1.30773    1.40016 -1.5949 0.506035    0.539175    0.0955259
-0.55336    1.93245 1.34462 1.15979 2.25317 1.38259
1.6934  0.192212    0.965777    0.283766    3.63855 1.86975
-0.715726   0.259011    -0.674307   0.864498    0.504759    -0.478025
-0.800315   -0.655506   0.0899015   -2.19869    -0.941662   -1.46332
-0.169604   -1.08992    -1.80457    -0.350718   0.818985    -1.2727
0.365721    1.10428 0.33128 -0.0163167  0.295945    1.48115
0.215779    2.233   0.33428 1.07424 0.815481    2.4511
1.07042 0.0490205   -0.195314   0.101451    -0.721812   1.11711
-0.478905   -0.438893   -1.54429    0.798461    -0.774219   -0.90456
1.2487  1.03267 0.958559    1.26925 1.31709 2.26846
-0.124634   -0.616711   0.334179    0.404281    0.531215    -0.747697
-1.82317    1.11467 0.407822    -0.937689   -1.90806    -0.723693
-1.34046    1.16957 0.271146    1.71505 0.910682    -0.176185

Mengingat bahwa saya sedang berusaha menjelaskan hubungan antara variabel-variabel ini dan pentingnya mereka dalam memprediksi y, apakah kurangnya kolinearitas memberi tahu saya pada dasarnya apa yang dikatakan oleh regresi linier berganda awal: bahwa hanya dua variabel yang penting? Jika variabel menunjukkan kolinearitas, maka apakah itu berarti beberapa penting, tetapi memberikan informasi serupa? Tolong beri tahu saya jika saya benar-benar tidak mengerti - saya sama sekali bukan ahli statistik.
cryptic_star

Oh, dan saya akan menambahkan ini ke posting asli saya, tetapi n saya adalah 24 (subyek manusia berfungsi, jadi itu cukup tinggi). Berdasarkan posting Anda, saya dapat berasumsi inilah sebabnya orang multicollinearity menyarankan untuk mendapatkan lebih banyak data - untuk lebih menyoroti perbedaan.
cryptic_star

Saya memberikan contoh baru yang menunjukkan bagaimana fenomena Anda dapat terjadi bahkan ketika . Ini dapat dengan mudah dimodifikasi sehingga semua angka yang terlibat adalah bilangan bulat positif: jumlah, yaitu. n=24
whuber

1
Berikan komentar pertama Anda: collinearity menyarankan beberapa variabel penjelas (IV) mungkin berlebihan, tetapi ini belum tentu demikian. Yang penting adalah hubungan antara IVs dan variabel dependen (DV). Sangat mungkin bagi salah satu IV untuk sangat tergantung pada IV lainnya, namun mengandung informasi unik yang berguna terkait dengan DV. Ini adalah konsep kritis: tidak ada jumlah analisis hubungan antara IVs saja yang akan memberi tahu Anda variabel mana yang paling menjelaskan DV. Kurangnya collinearity - properti semata - mata dari infus - tidak mengungkapkan apa pun tentang DV.
whuber

9

Apakah saya atau saya tidak memiliki masalah multikolinieritas? Jika saya melakukannya, lalu bagaimana saya harus melanjutkan?

Ini bukan situasi yang baik atau tidak. Dan saya skeptis tentang pedoman "4 atau 5". Untuk setiap prediktor Anda, kesalahan standar koefisien adalah antara 2,2 dan 5,6 kali lebih besar jika prediktor tidak berkorelasi dengan yang lain. Dan bagian dari prediktor yang diberikan yang tidak dapat dijelaskan oleh yang lain berkisar dari 1 / 2,2 hingga 1 / 5,6, atau 18% hingga 45%. Secara keseluruhan, itu tampaknya jumlah yang cukup besar dari collinearity.

Tapi mari kita mundur sebentar. Apakah Anda benar-benar mencoba memprediksi * Y *, bukannya mencoba menjelaskannya ? Jika yang pertama, maka saya kira Anda tidak perlu peduli apakah tingkat signifikansi dari variabel tertentu berubah ketika orang lain hadir dalam model. Pekerjaan Anda benar-benar jauh lebih mudah daripada jika diperlukan penjelasan yang benar.

Jika penjelasan adalah tujuan Anda, Anda harus mempertimbangkan cara variabel-variabel ini saling terkait - sesuatu yang membutuhkan lebih dari informasi statistik. Jelas mereka tumpang tindih dalam cara mereka berhubungan dengan Y , dan collinearity ini akan membuat sulit untuk membangun, misalnya, urutan peringkat mereka penting dalam akuntansi untuk Y . Dalam situasi ini tidak ada jalan yang jelas untuk Anda ikuti.

Bagaimanapun, saya harap Anda mempertimbangkan metode crossvalidation.


Jawaban ini, seperti halnya John, tampaknya membingungkan nilai-p rendah dengan korelasi tinggi. Ingat: kesalahan standar dari koefisien menurun dengan meningkatnya jumlah data ( caeteris paribus ), sehingga nilai-p rendah dapat dicapai dengan data memiliki hampir tidak memiliki korelasi, asalkan cukup pengamatan yang hadir.
whuber

Membingungkan nilai-p rendah dengan korelasi tinggi? Pas du tout!
rolando2

Kemudian tolong jelaskan bagaimana konsep nilai-p yang ketat ("kesalahan standar koefisien adalah antara 2,2 dan 5,6 kali lebih besar jika akan jika prediktor tidak berkorelasi dengan yang lain") membuat Anda menyimpulkan "yang tampaknya cukup substansial jumlah collinearity, "yang sangat terkait dengan korelasi (ukuran collinearity adalah properti dari matriks korelasi ketika variabel distandarisasi).
whuber

Saya melihatnya seperti ini. Ketika VIF adalah 5,6, 82% dari varians dalam prediktor itu dapat diperhitungkan oleh prediktor lain. Saya tidak melihat bagaimana ini bisa bergantung pada N.
rolando2

1
Sebagai lawan dari penilaian pesimistis ini (yang memang memiliki beberapa justifikasi dalam aturan praktis seperti membutuhkan 5-10 kali lebih banyak pengamatan sebagai variabel), perlu dicatat bahwa seluruh bidang pemodelan dan analisis data telah tumbuh di sekitar masalah yang memiliki sedikit pengamatan dan banyak prediktor, seperti DACE (desain dan analisis eksperimen komputer). Lihat ressources-actuarielles.net/EXT/ISFA/1226.nsf/… untuk makalah seminal.
whuber

6

Anda memiliki multikolinearitas. Analisis awal Anda menunjukkan hal itu. Sejauh ini menjadi masalah, itu pertanyaan lain yang tampaknya memiliki banyak jawaban dalam kasus Anda.

Mungkin jika Anda mendapatkan masalah dasar yang lebih baik akan lebih jelas apa yang harus dilakukan? ...

Dengan multikolinearitas, koefisien regresi Anda adalah tentang kontribusi unik (lebih dekat dengan unik) dari setiap variabel ke model Anda. Jika beberapa berkorelasi satu sama lain maka kontribusi unik masing-masing berkorelasi lebih kecil. Itu mungkin sebagian mengapa tidak ada yang signifikan ketika mereka semua ada bersama tetapi ketika digunakan sendiri mereka bisa.

Hal pertama yang mungkin perlu Anda lakukan adalah mempertimbangkan apa arti interkorelasi di antara variabel-variabel Anda. Sebagai contoh, apakah Anda memiliki banyak variabel yang hanya berdiri untuk hal yang sama? Apakah Anda kebetulan mengukur prediktor Anda dalam skala yang buruk dan mendapatkan korelasi insidental? Jangan mencoba memperbaiki regresi, cobalah memahami variabel Anda.

Pertimbangkan X1 dan X2 dengan korelasi yang sangat kuat di antara mereka, katakanlah r = 0,90. Jika Anda memasukkan X1 dalam model dan itu merupakan prediktor yang signifikan maka model lain dengan X2 saja kemungkinan besar akan signifikan juga karena mereka hampir sama. Jika Anda menempatkan mereka dalam model bersama setidaknya satu dari mereka harus menderita karena regresi berganda akan menyelesaikan kontribusi unik mereka. Keduanya mungkin tidak signifikan. Tapi bukan itu intinya, intinya adalah mengakui mengapa mereka tumpang tindih begitu banyak dan jika mereka bahkan mengatakan sesuatu yang berbeda satu sama lain dan apakah Anda membutuhkannya atau tidak? Mungkin satu mengungkapkan ide yang lebih bermakna dan lebih terkait dengan variabel respons Anda daripada yang lain. Mungkin Anda akan menyimpulkan bahwa mereka adalah hal yang sama dengan tingkat variabilitas yang berbeda.

Juga, ketika melihat model apa pun, tetapi terutama dengan prediktor yang saling terkait, nilai-p adalah cara yang mengerikan untuk mengetahui apakah prediktor baru memberikan kontribusi yang berarti (jika itu yang Anda coba lakukan ... tidak yakin apa yang Anda Sedang coba dilakukan karena sepertinya Anda hanya mencoba untuk membuat regresi baik A) sederhana, atau B) keluar seperti yang Anda inginkan ... tidak ada yang layak). Anda mungkin sebaiknya melihat AIC untuk membantu Anda menentukan prediktor yang harus Anda pertahankan dan yang tidak berkontribusi apa pun.


Bagaimana nilai-p rendah menunjukkan multikolinearitas? Kedua konsep ini sangat berbeda. Dengan data yang cukup, Anda dapat memiliki nilai p yang rendah dan hampir tidak ada collinearity sama sekali.
whuber

Inilah yang saya lawan, John: Anda telah menyimpulkan dalam kalimat pertama Anda bahwa apa yang OP jelaskan menyiratkan "Anda memiliki multikolinieritas." Tapi inilah yang ingin diketahui OP: "apakah saya atau tidak saya punya masalah multikolinieritas"? Saya berpendapat bahwa jawaban yang benar adalah "Anda belum memberi kami informasi yang cukup, tetapi mungkin tidak" karena fenomena yang dijelaskan dalam pertanyaan itu sangat konsisten dengan masalah yang dikondisikan dengan baik. Memang, VIF rendah yang dilaporkan oleh OP menunjukkan bahwa pernyataan Anda salah.
whuber

Saya tidak mengatakan itu di mana pun. Mungkin maksud Anda apa yang saya katakan tentang analisis awal. Analisis awal adalah bahwa efeknya banyak berubah tergantung pada apa efek lain yang ditambahkan. Itu karena multi-collinearity (meskipun tidak menghitungnya). Tentu saja signifikansi adalah masalah yang berbeda. Aku benar-benar tidak tahu apa maksudmu?
John

Maaf Whuber untuk memperbarui komentar, tetapi Anda tetap berfungsi dengan baik .... pembaca, dua yang terakhir di atas dibalik dan itu salah saya. Whuber, saya hanya fokus pada kata "masalah". Multikolinearitas adalah sesuatu yang Anda kuantifikasi. Ada beberapa. Itu menyarankan berpikir keras tentang variabel terlepas. Ini juga menunjukkan bahwa alasan prediktor aditif berubah ketika ditambahkan atau dihapus adalah karena multikolinieritas itu. Saya tidak mendapatkan kesan si penanya benar-benar menginginkan jawaban tentang itu sebagai "masalah" perhitungan.
John

Mungkin saja kita menafsirkan pertanyaan dengan cara yang berbeda, John. Karena saya tidak ingin meninggalkan masalah yang mungkin membingungkan oleh komentar saya di sini, saya menambahkan balasan untuk menjelaskan maksud saya.
whuber

2

Secara pribadi, saya akan menggunakan indeks kondisi dan tabel dijelaskan varians untuk menganalisis collinearity.

Saya juga tidak akan menggunakan nilai p sebagai kriteria untuk pembangunan model, dan ketika membandingkan model dengan 6 IVs dengan model dengan 1, saya akan melihat perubahan dalam ukuran efek parameter untuk variabel yang keduanya.

Tetapi Anda tentu dapat memiliki hasil yang Anda sebutkan tanpa collinearity. Collinearity hanya tentang variabel X dan hubungannya. Tetapi dua variabel keduanya bisa berhubungan kuat dengan Y sementara tidak saling berhubungan kuat satu sama lain.


1
Bagi saya, ini tampaknya tidak intuitif, bahwa dua variabel dapat berhubungan kuat dengan Y tanpa saling berhubungan erat. Apakah ada contoh yang bisa Anda tunjukkan kepada saya, atau penjelasan yang lebih panjang?
cryptic_star

@ Peter - dengan 1- (1 / 5.6) = 82% dari varians dalam prediktor terakhir yang dijelaskan oleh yang lain, mengapa Anda mengatakan mungkin tidak ada collinearity?
rolando2

3
Allie, itu pertanyaan yang bagus. Ambil dua variabel yang tidak terkaitx1 dan x2, of comparable variances, and form y=x1+x2. Now y is strongly related to each of x1 and x2 without x1 and x2 having any relation at all.
whuber

0

Regarding multicollinearity there are various thresholds being mentioned usually converging around a VIF of 10 corresponding to an underlying R Square value of 0.90 between the tested variable vs the other independent variables. The VIFs of your variables appear passable, and you could technically keep them in a model.

Yet, I would use a stepwise regression method to see which are the best combination of variables and how much more explanation (incremental increase in R Square) you get by adding variables. The arbitrating benchmark should be the Adjusted R Square value that adjusts the R Square value downward by penalizing the model for adding variables.

Your variables are somewhat correlated with each other. This is inevitable, it is just a matter of degree. Given the VIFs you mention, I suspect intuitively that you will get the vast majority of the information/explanation bit from the best 2 variable combination. And, that adding variables may add only marginal incremental value.

When looking at the combination of variables that are selected by the stepwise regression process, I would also look at what variables are selected and if their regression coefficient signs are consistent with their correlation with y. If they are not, it can be due to a legitmate interaction between the variables. But, it could also be a result of model overfitting and that the regression coefficients are spurious. They reflect a mathematical fit, but are meaningless in terms of underlying causality.

Another way to select your variables is to decide from a logic standpoint which ones are the main 2 or 3 variables that should be in the model. You start with those and then check how much more information do you get by adding a variable. Check the adjusted R Square, consistency of the regression coefficient relative to the original regression, and obviously test all the models with hold out period. Pretty soon, it will be evident what is your best model.


4
I disagree that an automatic stepwise selection procedure would be preferable. In such a case you would be selecting based on a random variable, which causes a lot of problems. I discuss this phenomenon here. If stepwise selection were applied anyway, I would recommend using the AIC, instead of Radj2, as the steeper penalty would be more appropriate; however, I do not recommend using stepwise selection.
gung - Reinstate Monica

Many of the problems you outline are common to linear regressions model in general. I am not sure that such technical problems are reasons to throw out all stepwise regression methods and linear regression in general. I am unclear why stepwise regression "is selecting based on a random variable, which causes a lot of problems." Stepwise finds the best fit, like any model does. What I think is more important is to ensure that the mathematical fit corresponds to the underlying theory or logic of the problem you are solving for.
Sympa

3
I can edit it if need be, but the problems quoted are not about linear models in general, just stepwise selection. I do not advocate throwing out linear regression. Stepwise algorithms return highly biased betas & inaccurate CIs that are largely impossible to correct. R2, Radj2, F, p, etc. are random variables: if you get more data from the same data generating process & fit an identical model repeatedly, these values will vary. Selecting a model based on them incorporates error in ways that eliminate the value of the model. I do agree w/ using theory & logic to select a model.
gung - Reinstate Monica

gung, I am not sure we are talking of the same thing. I am using Stepwise Regression in two ways. One is manual, you build a model using the best regressor. And, you add on to it using the 2nd best variable that best explain the error of the first model. And, you keep going till your AIC score deteriorates. The 2nd method I have used is using XLStat software that automates the process and was developed by Thierry Fahmy and his team. He has I understand a PhD in math along with others on his team. And, I am not confident they would have fallen into all the traps you mentioned.
Sympa

2
Gaetan, I think what @gung is trying to say is that stepwise methods may cause severe damage to the initial statistical regression framework (loss function, p-values, etc.). See Frank Harrell's response and comments here. Penalized regression, as discussed in several threads, might be a good alternative. "(...) software that automates the process" reminds me of R fortune(224): no troll here, just want to highlight that you don't necessarily need to trust what software automagically gives (or offers) you as an option.
chl

0

If your explanatory variables are count data, and it is not unreasonable to assume that they are normally distributed, you can transform them into standard normal variates using the R scale command. Doing this can reduce the collinearity. But that will probably not solve the whole problem.

A useful batch of R commands for analyzing and dealing with collinearity are found on Florian Jaeger's blog, including:

z. <- function (x) scale(x)
r. <- function (formula, ...) rstandard(lm(formula, ...))

The z.fungsi mengkonversi vektor ke dalam variate standar normal. The r.kembali fungsi standar residu untuk regresi satu prediktor terhadap yang lain. Anda dapat menggunakan ini untuk secara efektif membagi penyimpangan model ke dalam tahapan yang berbeda sehingga hanya beberapa variabel yang memiliki akses ke tahap paling senior, maka tahap berikutnya akan ditawarkan ke variabel residual. (Maaf untuk terminologi tenunananku) Jadi jika model formulir

Y ~ A + B

menderita multicollinearity, maka Anda dapat menjalankan keduanya

Y ~ A + r.(B)
Y ~ r.(A) + B

sehingga hanya residual dari variabel "junior tranche" (ketika diregresikan dengan variabel "senior tranche") yang sesuai dengan model. Dengan cara ini, Anda terlindung dari multikolinieritas, tetapi memiliki serangkaian parameter yang lebih rumit untuk dilaporkan.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.