Apakah multikolinearitas benar-benar masalah?

11

Saya sedang mengerjakan beberapa proyek pemodelan prediktif dewasa ini: mencoba mempelajari suatu model dan membuat prediksi waktu nyata berdasarkan pada model yang saya pelajari secara offline.

Saya mulai menggunakan regresi ridge baru-baru ini, karena saya membaca bahwa regularisasi dapat membantu mengurangi efek multikolinieritas.

Namun, saya membaca blog ini hari ini. Saya benar-benar bingung sekarang. Menurut blog ini, multikolinearitas TIDAK menyakiti kekuatan prediksi model sebanyak itu.

Jadi, pada akhirnya, apakah multikolinearitas masalah atau tidak?

— pengguna152503
sumber

2

itu adalah masalah di beberapa pengaturan (katakanlah OLS), bukan masalah di pengaturan lain (katakanlah Decision Tree, atau dengan Regularisasi).

— Haitao Du

6

@ hxd1011, saya akan mengatakan, tidak exaclty. Ini adalah masalah jika kita melakukan pemodelan penjelasan, tetapi beberapa teknik lebih baik daripada yang lain dalam mengatasi hal itu (OLS vs ridge regression). Ini bukan masalah prediksi, seperti yang ditulis Rob J. Hyndman dalam posting blog yang dikutip.

— Richard Hardy

1

Ini adalah masalah yang lebih besar jika prediktor Anda diukur dengan kesalahan. Dengan prediktor yang diukur dengan sempurna (seperti variabel kategori tanpa masalah pengukuran), hal itu seharusnya tidak terlalu menjadi perhatian.

— kjetil b halvorsen

1

Jumlah mikro adalah masalah sebenarnya.

— The Laconic

13

Ini masalah untuk inferensi kausal - atau lebih tepatnya, ini menunjukkan kesulitan dalam inferensi kausal - tetapi itu bukan masalah khusus untuk prediksi / peramalan (kecuali itu sangat ekstrim sehingga mencegah konvergensi model atau menghasilkan matriks tunggal, dan kemudian Anda tidak akan mendapatkan prediksi pula). Ini, saya pikir, adalah arti dari posting blog itu juga. Sepertinya Anda mungkin bersikeras untuk menjawab ya-atau-tidak ketika jawabannya tergantung. Inilah yang menjadi sandarannya, dan mengapa paling tidak dapat dikatakan bahwa multikolinieritas (tidak sempurna) tidak pernah menjadi alasan untuk menjatuhkan variabel dari suatu model - masalah yang ditunjukkan multikolinieritas tidak akan hilang karena Anda menjatuhkan variabel dan berhenti melihat collinearity.

Prediktor yang sangat berkorelasi satu sama lain hanya tidak melakukan pekerjaan yang baik untuk meningkatkan prediksi Anda seperti mereka jika mereka tidak collinear, tetapi masih secara terpisah berkorelasi dengan variabel hasil; tidak ada yang melakukan lebih banyak pekerjaan daripada yang lain sudah melakukan dan akan melakukannya sendiri. Mungkin mereka sangat terkait satu sama lain karena pada dasarnya mereka menangkap konstruksi dasar yang sama, dalam hal ini tidak ada yang menambahkan lebih banyak di atas yang lain untuk alasan yang baik, dan tidak mungkin untuk memisahkan mereka secara ontologis untuk prediksi. tujuannya, dengan memanipulasi unit pengamatan untuk memiliki nilai yang berbeda pada masing-masing dari dua variabel prediktor sehingga mereka bekerja lebih baik sebagai prediktor. Tetapi itu tidak berarti bahwa memasukkan keduanya dalam model Anda apa adanya adalah buruk atau salah.

Ketika sampai pada kesimpulan sebab akibat, itu adalah masalah semata-mata karena itu mencegah kita dari tidak dapat mengatakan, paling tidak secara meyakinkan, mana dari para prediktor collinear yang melakukan prediksi, dan oleh karena itu penjelasan dan, mungkin, penyebabnya. Dengan pengamatan yang cukup, Anda pada akhirnya akan dapat mengidentifikasi efek terpisah dari variabel yang bahkan sangat collinear (tetapi tidak pernah collinear sempurna). Inilah sebabnya mengapa Rob Franzese dan UMich suka menyebut multicollinearity "micronumerosity." Selalu ada beberapa collinearity antara prediktor. Itulah salah satu alasan mengapa kita umumnya hanya membutuhkan banyak pengamatan. Terkadang jumlah yang tidak mungkin, untuk kebutuhan kausal-inferensi kita. Tetapi masalahnya adalah kompleksitas dunia dan keadaan yang tidak menguntungkan yang mencegah kita dari mengamati berbagai situasi yang lebih luas di mana faktor-faktor yang berbeda lebih bervariasi dalam hubungannya satu sama lain. Multikolinieritas adalah gejala dari kurangnya data yang bermanfaat, dan regresi multivariat adalah obat (tidak sempurna). Namun begitu banyak orang tampaknya menganggap multikolinieritas sebagai sesuatu yang mereka lakukan salah dengan model mereka, dan seolah-olah itu adalah alasan untuk meragukan temuan apa yang mereka miliki.

— DHW
sumber

8

Ini bukan masalah untuk pemodelan prediktif ketika yang Anda pedulikan hanyalah ramalan dan tidak ada yang lain.

Pertimbangkan model sederhana ini: Misalkan

y = β + β_{x} x + β_{z} z + ε

$y=\beta+\beta_xx+\beta_zz+\varepsilon$

z = α x

$z=\alpha x$

Kami memiliki regresi collinear sempurna, dan solusi OLS khas tidak akan ada karena memiliki singularitas. $(X^TX)^{-1}$

Namun, mari kita hubungkan satu persamaan ke persamaan lain: mana

y = β + β_{x} x + β_{z} α x + ε = β + β_{2} x + ε,

$y=\beta+\beta_xx+\beta_z\alpha x+\varepsilon= \beta+\beta_2 x+\varepsilon,$

β_{2} \equiv β_{x} + β_{z} α

$\beta_2\equiv \beta_x+\beta_z\alpha$

Jadi, jelas, kita dapat memperkirakan dengan metode OLS biasa, yaitu ada solusinya. Satu-satunya masalah bukan unik! $\hat\beta_2$

Kita dapat memilih , yang akan memberi kita : kita memiliki jumlah pasangan tanpa batas yang sesuai dengan keunikan solusi . Jelas, setiap pasangan ini sama baiknya dengan yang lain untuk prediksi . Selain itu, semua pasangan ini sama bagusnya dengan koefisien untuk tujuan perkiraan . $\hat\beta_z$ $\hat\beta_x=\beta_2-\alpha\hat\beta_x$ $(\hat\beta_x,\hat\beta_z)$ $\hat\beta_2$ $\hat y$ $\hat\beta_2$

Satu-satunya masalah adalah kesimpulan. Jika Anda ingin tahu bagaimana dampak analisis khas dari koefisien dan varians-nya akan sia-sia. $x$ $y$ $\hat\beta_x$

— Aksakal
sumber

2

Multikolinieritas umumnya bukan skenario terbaik untuk analisis regresi. Hidup kita akan jauh lebih mudah jika semua prediktor bersifat ortogonal.

Ini masalah untuk interpretasi model (mencoba memahami data):

Multikolinearitas mempengaruhi varians dari penaksir koefisien, dan karenanya ketepatan estimasi.
Dengan demikian, akan lebih sulit untuk menolak hipotesis nol (karena kesalahan standar yang lebih tinggi). Kami memiliki masalah kesalahan Tipe II.
Penambahan atau penghapusan hanya beberapa pengamatan sampel dapat secara substansial mengubah estimasi koefisien
Tanda-tanda koefisien yang diperkirakan dapat menjadi kebalikan dari yang diharapkan.

Bayangkan jika Anda harus menulis laporan kepada bos Anda tentang data Anda. Anda membangun model multikolinieritas yang hampir sempurna, dan memberi tahu atasan Anda tentang model itu. Anda mungkin mengatakan " prediktor pertama saya berkorelasi positif dengan respons ... Saya akan memberi tahu Anda alasannya. Bos Anda senang, tetapi meminta Anda untuk mencoba lagi tanpa beberapa titik data. Koefisien Anda dalam model baru Anda sekarang ... sangat berbeda , koefisien untuk prediktor pertama Anda sekarang negatif! Bos Anda tidak akan mempercayai Anda lagi! Model Anda tidak kuat.

Multikolinearitas masih menjadi masalah untuk daya prediksi. Model Anda akan overfit dan kecil kemungkinannya untuk digeneralisasi ke data out-of-sample. Untungnya, tidak akan terpengaruh dan koefisien Anda akan tetap tidak bias. $R^2$

— Halo Dunia
sumber

0

Saya berpendapat bahwa jika korelasi antara variabel dan variabel lain (atau kombinasi variabel linear) berubah antara data sampel dan sampel keluar, Anda dapat mulai melihat multikolinieritas yang memengaruhi keakuratan sampel di luar sampel. prediksi. Multicollinearity hanya menambahkan asumsi lain (korelasi konsisten) yang harus dipenuhi secara wajar agar model Anda tetap bekerja dengan baik.

— Chris
sumber

Jawaban (sebagian) baik. Saya tidak berpikir itu layak untuk downvotes.

— capybaralet