Saya ragu dengan serius apakah memusatkan atau membakukan data asli dapat benar-benar mengurangi masalah multikolinieritas ketika istilah kuadrat atau istilah interaksi lainnya dimasukkan dalam regresi, karena beberapa dari Anda, terutama gung, telah merekomendasikan di atas.
Untuk mengilustrasikan poin saya, mari kita pertimbangkan contoh sederhana.
Misalkan spesifikasi yang sebenarnya mengambil bentuk sebagai berikut
yi=b0+b1xi+b2x2i+ui
Jadi persamaan OLS yang sesuai diberikan oleh
yi=yi^+ui^=b0^+b1^xi+b2^x2i+ui^
di mana adalah nilai yang pas dari , adalah residual, - menunjukkan perkiraan OLS untuk - - parameter yang akhirnya kami minati. Untuk kesederhanaan, biarkan sesudahnya.yi^yiuib0^b2^b0b2zi=x2i
Biasanya, kita tahu dan cenderung sangat berkorelasi dan ini akan menyebabkan masalah multikolinieritas. Untuk mengurangi ini, saran populer akan memusatkan data asli dengan mengurangi rata-rata dari sebelum menambahkan istilah kuadrat.xx2yiyi
Cukup mudah untuk menunjukkan bahwa rata-rata diberikan sebagai berikut:
mana , , menunjukkan cara masing-masing , dan .yi
y¯=b0^+b1^x¯+b2^z¯
y¯x¯z¯yixizi
Karenanya, mengurangkany¯yi
yi−y¯=b1^(xi−x¯)+b2^(zi−z¯)+ui^
yi−y¯xi−x¯zi−z¯b1^b2^
xx2xx2corr(x,z)=corr(x−x¯,z−z¯)
Singkatnya, jika pemahaman saya tentang pemusatan adalah benar, maka saya tidak berpikir bahwa pemusatan data akan membantu untuk mengurangi masalah MC yang disebabkan oleh memasukkan istilah kuadrat atau persyaratan tingkat tinggi lainnya ke dalam regresi.
Saya akan senang mendengar pendapat Anda!