Dalam regresi linier berganda dengan regresi yang sangat berkorelasi, apa strategi terbaik untuk digunakan? Apakah ini pendekatan yang sah untuk menambahkan produk dari semua regressor yang berkorelasi?
Dalam regresi linier berganda dengan regresi yang sangat berkorelasi, apa strategi terbaik untuk digunakan? Apakah ini pendekatan yang sah untuk menambahkan produk dari semua regressor yang berkorelasi?
Jawaban:
Komponen utama sangat masuk akal ... secara matematis. Namun, saya akan berhati-hati hanya menggunakan beberapa trik matematika dalam kasus ini dan berharap bahwa saya tidak perlu memikirkan masalah saya.
Saya akan merekomendasikan sedikit berpikir tentang apa jenis prediktor yang saya miliki, apa variabel independennya, mengapa prediktor saya berkorelasi, apakah beberapa prediktor saya benar-benar mengukur realitas mendasar yang sama (jika demikian, apakah saya dapat bekerja dengan pengukuran tunggal dan prediksi saya yang mana yang terbaik untuk ini), apa yang saya lakukan untuk analisis - jika saya tidak tertarik pada kesimpulan, hanya dalam prediksi, maka saya benar-benar bisa meninggalkan sesuatu seperti apa adanya, selama masa depan nilai prediktor mirip dengan nilai sebelumnya.
Anda dapat menggunakan komponen utama atau regresi ridge untuk menangani masalah ini. Di sisi lain, jika Anda memiliki dua variabel yang berkorelasi cukup tinggi untuk menyebabkan masalah dengan estimasi parameter, maka Anda hampir pasti bisa menjatuhkan salah satu dari dua tanpa kehilangan banyak dalam hal prediksi - karena kedua variabel membawa informasi yang sama . Tentu saja, itu hanya berfungsi ketika masalah disebabkan oleh dua orang yang sangat berkorelasi. Ketika masalah melibatkan lebih dari dua variabel yang bersama-sama hampir collinear (dua di antaranya mungkin hanya memiliki korelasi sedang), Anda mungkin akan memerlukan salah satu metode lain.
Berikut adalah pemikiran lain yang terinspirasi oleh jawaban Stephan :
Jika beberapa regresi Anda yang berkorelasi secara bermakna terkait (misalnya, mereka adalah ukuran kecerdasan yang berbeda yaitu, verbal, matematika, dll) maka Anda dapat membuat variabel tunggal yang mengukur variabel yang sama menggunakan salah satu teknik berikut:
Jumlahkan regressor (sesuai jika regressor adalah komponen dari keseluruhan, misalnya, IQ verbal + matematika IQ = IQ keseluruhan)
Rata-rata regressor (sesuai jika regressor mengukur konstruksi dasar yang sama misalnya, ukuran sepatu kiri, ukuran sepatu kanan untuk mengukur panjang kaki)
Analisis faktor (untuk memperhitungkan kesalahan dalam pengukuran dan untuk mengekstrak faktor laten)
Anda kemudian dapat menghapus semua regresi yang berkorelasi dan menggantinya dengan satu variabel yang muncul dari analisis di atas.
Saya hampir mengatakan hal yang sama dengan Stephan Kolassa di atas (jadi saya telah mengangkat jawabannya). Saya hanya akan menambahkan bahwa kadang-kadang multikolinearitas dapat disebabkan oleh penggunaan variabel luas yang semuanya sangat berkorelasi dengan beberapa ukuran ukuran, dan hal-hal dapat ditingkatkan dengan menggunakan variabel intensif, yaitu membagi semuanya melalui beberapa ukuran ukuran. Misalnya, jika unit Anda adalah negara, Anda dapat membagi berdasarkan populasi, area, atau GNP, tergantung pada konteksnya.
Oh - dan untuk menjawab bagian kedua dari pertanyaan awal: Saya tidak bisa memikirkan situasi apa pun ketika menambahkan produk dari semua regressor yang berkorelasi adalah ide yang bagus. Bagaimana ini membantu? Apa artinya itu?
Saya bukan ahli dalam hal ini, tetapi pikiran pertama saya adalah menjalankan analisis komponen utama pada variabel prediktor, kemudian menggunakan komponen utama yang dihasilkan untuk memprediksi variabel dependen Anda.
Ini bukan obat, tapi jelas langkah ke arah yang benar.