Standarisasi variabel dan kolinearitas

Collinearity dapat menimbulkan masalah tertentu dalam berbagai macam masalah regresi. Secara khusus, ini dapat membuat estimasi parameter memiliki varian tinggi dan menjadi tidak stabil.

Berbagai metode telah diusulkan untuk menangani hal ini termasuk regresi ridge, regresi kuadrat terkecil parsial, regresi komponen utama, menjatuhkan variabel dan mendapatkan lebih banyak data.

Salah satu metode yang kontroversial adalah standarisasi atau penskalaan variabel independen, dengan berbagai ahli mengatakan itu adalah ide yang baik (misalnya Garcia) atau buruk (misalnya Belsley). Masalah Belsley tampaknya (dalam istilah non-teknis) bahwa mengubah infus hanya mendorong masalah di bawah permadani. Tetapi para ahli lain tampaknya tidak setuju. Dan penulis cenderung menjadi agak panas dalam mempertahankan posisi mereka sendiri.

Kembali ketika saya melakukan disertasi (pada diagnosa collinearity) saya menemukan argumen Belsley meyakinkan, tapi itu sudah lama sekali (saya mendapatkan gelar saya pada tahun 1999).

Saya mencari petunjuk ahli atau artikel ulasan saat ini yang tidak bias.

multicollinearity

— Peter Flom
sumber

Saya tidak memiliki referensi modern untuk Anda - otoritas saya masih Belsley Kuh & Welsch 1981 - tetapi saya dapat mengatakan bahwa pengalaman baru-baru ini dalam memperbaiki perangkat lunak regresi tertentu meyakinkan saya bahwa memang ada beberapa nilai dalam standardisasi awal. Dalam aplikasi, satu variabel adalah waktu yang, dalam Rkerangka ini , diwakili dalam hitungan detik sejak awal tahun 1970. Dengan demikian, itu cenderung sembilan kali lipat lebih besar dari semua kovariat. Cukup dengan menstandarkan waktu, memecahkan masalah floating point parah yang terjadi dalam optimizer kemungkinan.

— Whuber

Secara konseptual (bukan secara numerik), saya masih berpikir Arthur Goldberger sangat tepat: "Teks ekonometrik mencurahkan banyak halaman untuk masalah multikolinieritas dalam regresi berganda, tetapi mereka mengatakan sedikit tentang masalah analog yang erat dari ukuran sampel kecil dalam memperkirakan rata-rata univariat. Mungkin bahwa ketidakseimbangan disebabkan oleh kurangnya nama polisilabik eksotis untuk 'ukuran sampel kecil'. Jika demikian, kita dapat menghilangkan hambatan itu dengan memperkenalkan istilah mikronumerositas "

— CloseToC

@ Peter Flom: Konsisten dengan komentar Whuber, saya (sangat) samar-samar ingat bahwa standarisasi dengan bahkan hanya membuat prediktor memiliki nol berarti sangat membantu.

— mlofton

Bagi saya tidak begitu jelas apa arti standardisasi, dan ketika mencari sejarah saya mengambil dua referensi yang menarik.

Artikel terbaru ini memiliki ikhtisar historis dalam pendahuluan:

García, J., Salmerón, R., García, C., & López Martín, MDM (2016). Standarisasi variabel dan diagnostik collinearity dalam regresi ridge. Tinjauan Statistik Internasional, 84 (2), 245-266

Saya menemukan artikel menarik lain yang semacam klaim untuk menunjukkan bahwa standardisasi, atau pemusatan, tidak berpengaruh sama sekali.

Echambadi, R., & Hess, JD (2007). Mean-centering tidak mengurangi masalah collinearity dalam model regresi berganda yang dimoderasi.Ilmu Pemasaran, 26 (3), 438-445.

Bagi saya, kritik ini sepertinya seperti kehilangan inti tentang ide keterpusatan.

Satu-satunya hal yang ditunjukkan Echambadi dan Hess adalah bahwa modelnya setara dan bahwa Anda dapat mengekspresikan koefisien dari model terpusat dalam hal koefisien dari model yang tidak berpusat, dan sebaliknya (menghasilkan varian / kesalahan yang serupa dari koefisien) ).

Hasil Echambadi dan Hess agak sepele dan saya percaya bahwa ini (hubungan dan kesetaraan antara koefisien) tidak diklaim tidak benar oleh siapa pun. Tidak ada yang mengklaim bahwa hubungan antara koefisien tidak benar. Dan itu bukan titik variabel keterpusatan.

Inti dari keterpusatan adalah bahwa dalam model dengan istilah linear dan kuadrat Anda dapat memilih skala koordinat yang berbeda sehingga Anda akhirnya bekerja dalam bingkai yang tidak memiliki atau kurang korelasi antara variabel. Katakanlah Anda ingin mengungkapkan efek waktu $t$ pada beberapa variabel $Y$ dan Anda ingin melakukan ini selama beberapa periode yang dinyatakan dalam tahun-tahun setelah AD katakan dari tahun 1998 hingga 2018. Dalam hal ini, apa yang dimaksud dengan teknik pemusatan adalah untuk menyelesaikannya adalah bahwa

"Jika Anda menyatakan keakuratan koefisien untuk dependensi linear dan kuadrat pada waktu, maka mereka akan memiliki lebih banyak variasi saat Anda menggunakan waktu $t$ mulai dari tahun 1998 hingga 2018 bukan waktu yang terpusat $t^\prime$ mulai dari -10 hingga 10 ".

Y = Sebuah + b t + c t^{2}

$Y = a + bt + ct^2$

melawan

Y = {Sebuah}^{'} + b^{'} (t - T) + c^{'} (t - T)^{2}

$Y = a^\prime + b^\prime(t-T) + c^\prime(t-T)^2$

Tentu saja, kedua model ini setara dan bukannya memusatkan Anda bisa mendapatkan hasil yang sama persis (dan karenanya kesalahan yang sama dari koefisien yang diperkirakan) dengan menghitung koefisien seperti

\begin{matrix} Sebuah & = & {Sebuah}^{'} - b^{'} T + c^{'} T^{2} \\ b & = & b^{'} - 2 c^{'} T \\ c & = & c^{'} \end{matrix}

$\begin{array}{} a &=& a^\prime - b^\prime T + c^\prime T^2 \\ b &=& b^\prime - 2 c^\prime T \\ c &=& c^\prime \end{array}$

juga saat Anda melakukan ANOVA atau menggunakan ekspresi seperti $R^2$ maka tidak akan ada perbedaan.

Namun, itu sama sekali bukan inti dari pemusatan rata-rata. Inti dari pemusatan rata-rata adalah bahwa kadang-kadang seseorang ingin mengkomunikasikan koefisien dan estimasi varians / akurasi atau interval kepercayaan mereka, dan untuk kasus-kasus itu tidak masalah bagaimana model diekspresikan.

Contoh: seorang fisikawan ingin menyatakan beberapa hubungan eksperimental untuk beberapa parameter X sebagai fungsi temperatur kuadratik.

tidak akan lebih baik untuk melaporkan interval 95% untuk koefisien seperti

                 2.5 %      97.5 %

(Intercept)      1602       1621
T-348               7.87       8.26
(T-348)^2           0.0029     0.0166

dari pada

                  2.5 %     97.5 %

(Intercept)       -839       816
T                   -3.52      6.05
T^2                  0.0029    0.0166

Dalam kasus terakhir, koefisien akan diekspresikan dengan margin kesalahan yang tampaknya besar (tetapi tidak mengatakan apa pun tentang kesalahan dalam model), dan selain itu korelasi antara distribusi kesalahan tidak akan jelas (dalam kasus pertama kesalahan dalam koefisien tidak akan dikorelasikan).

Jika seseorang mengklaim, seperti Echambadi dan Hess, bahwa kedua ekspresi itu hanya setara dan pemusatan tidak masalah, maka kita harus (sebagai konsekuensinya menggunakan argumen serupa) juga mengklaim bahwa ekspresi untuk koefisien model (ketika tidak ada penyadapan alami dan pilihannya arbitrer) dalam hal interval kepercayaan atau kesalahan standar tidak pernah masuk akal.

Dalam pertanyaan / jawaban ini sebuah gambar ditampilkan yang juga menyajikan ide ini bagaimana interval kepercayaan 95% tidak memberi tahu banyak tentang kepastian koefisien (setidaknya tidak secara intuitif) ketika kesalahan dalam estimasi koefisien berkorelasi.

gambar

— Sextus Empiricus
sumber

Terima kasih! Saya telah melihat Garcia tetapi bukan artikel lain yang Anda sebutkan.

— Peter Flom