Di mana varians bersama antara semua IV dalam persamaan regresi linier berganda?

Dalam persamaan regresi berganda linier, jika bobot beta mencerminkan kontribusi masing-masing variabel independen individu di atas dan di atas kontribusi semua IV lainnya, di mana dalam persamaan regresi adalah varian yang dibagikan oleh semua IV yang memprediksi DV?

Misalnya, jika diagram Venn ditampilkan di bawah (dan diambil dari laman 'tentang' CV di sini: https://stats.stackexchange.com/about ) dilabel ulang menjadi 3 IV dan 1 DV, di mana area dengan tanda bintang akan dimasukkan ke dalam persamaan regresi berganda?

masukkan deskripsi gambar di sini

multiple-regression sums-of-squares

— Joel W.
sumber

Saya tidak melihat perlunya downvote di sini. Saya pikir pertanyaan ini mendapatkan apa yang terjadi dalam regresi berganda pada tingkat fundamental, dan menawarkan kesempatan untuk menjelaskan sesuatu tentang MR yang seharusnya tidak pernah dibahas.

— gung - Reinstate Monica

Jawaban:

Untuk memahami apa arti diagram itu, kita harus mendefinisikan beberapa hal. Katakanlah diagram Venn menampilkan varians yang tumpang tindih (atau dibagi) di antara 4 variabel yang berbeda, dan kami ingin memprediksi tingkat dengan meminta pengetahuan kami tentang , , dan . Artinya, kami ingin dapat mengurangi ketidakpastian (yaitu, varian) di dari varian nol ke varian residual. Seberapa baik hal itu dapat dilakukan? Itulah pertanyaan yang dijawab diagram Venn untuk Anda. $Wiki$ $Digg$ $Forum$ $Blog$ $Wiki$

Setiap lingkaran mewakili satu set poin, dan dengan demikian, sejumlah varians. Untuk sebagian besar, kami tertarik pada varian di $Wiki$ , tetapi gambar juga menampilkan varian dalam prediktor. Ada beberapa hal yang perlu diperhatikan tentang sosok kita. Pertama, setiap variabel memiliki jumlah varians yang sama - semuanya berukuran sama (walaupun tidak semua orang akan menggunakan diagram Venn secara literal). Juga, ada jumlah yang sama dari tumpang tindih, dll, dll. Satu hal yang lebih penting untuk diperhatikan adalah ada banyak tumpang tindih di antara variabel-variabel prediktor. Ini berarti bahwa mereka berkorelasi. Situasi ini sangat umum ketika berhadapan dengan data sekunder (yaitu, arsip), penelitian observasional, atau skenario prediksi dunia nyata. Di sisi lain, jika ini adalah percobaan yang dirancang, itu mungkin akan menyiratkan desain atau eksekusi yang buruk. Untuk melanjutkan dengan contoh ini sedikit lebih lama, kita dapat melihat bahwa kemampuan prediksi kita akan moderat; sebagian besar variabilitas dalam $Wiki$ tetap sebagai variabilitas residual setelah semua variabel telah digunakan (melihat diagram, saya kira ). Satu hal yang perlu dicatat adalah bahwa, sekali dan telah dimasukkan ke dalam model, menyumbang satupun dari variabilitas dalam . $R^2\approx.35$ $Digg$ $Blog$ $Forum$ $Wiki$

Sekarang, setelah menyesuaikan model dengan beberapa prediktor, orang sering ingin menguji prediktor tersebut untuk melihat apakah mereka terkait dengan variabel respons (walaupun tidak jelas ini sama pentingnya dengan yang tampaknya dipercayai oleh orang-orang). Masalah kita adalah bahwa untuk menguji prediktor ini, kita harus mempartisi Jumlah Kuadrat , dan karena prediktor kita berkorelasi, ada SS yang dapat dikaitkan dengan lebih dari satu prediktor. Bahkan, di wilayah bertanda bintang, SS dapat dikaitkan dengan salah satu dari tiga prediktor. Ini berarti bahwa tidak ada partisi unik dari SS, dan dengan demikian tidak ada tes unik. Bagaimana masalah ini ditangani tergantung pada jenis SS yang digunakan danpenilaian lain yang dibuat oleh peneliti . Karena banyak aplikasi perangkat lunak mengembalikan tipe III SS secara default, banyak orang membuang informasi yang terkandung di wilayah yang tumpang tindih tanpa menyadari bahwa mereka telah membuat penilaian . Saya menjelaskan masalah ini, berbagai jenis SS, dan masuk ke beberapa detail di sini .

Pertanyaannya, seperti yang dinyatakan, secara khusus bertanya tentang di mana semua ini muncul dalam persamaan beta / regresi. Jawabannya adalah tidak. Beberapa informasi tentang itu terkandung dalam jawaban saya di sini (walaupun Anda harus membaca yang tersirat sedikit).

— gung - Pasang kembali Monica
sumber

Halo Gung, Terima kasih atas kiriman Anda. Sangat menarik dan membuka mata saya di beberapa daerah. Namun, saya mengalami kesulitan membaca yang tersirat dari postingan yang Anda tautkan. Jadi, pertanyaan saya tetap: Dalam persamaan regresi linier berganda, jika bobot beta mencerminkan kontribusi masing-masing variabel independen individu di atas dan di atas kontribusi semua IV lain, di mana dalam persamaan regresi adalah varian yang dibagikan oleh semua IV yang memprediksi DV?

— Joel W.

Ya, itu akan sangat sulit dilihat. Intinya adalah ada perbedaan mendasar antara masalah 1 cara mempartisi SS untuk pengujian, & 2 memperkirakan beta. 1 menganggap menghubungkan SS ke mana prediktor; 2 memilih nilai optimal untuk beta. Tumpang tindih muncul di yang pertama, bukan yang terakhir. Jika Anda mundur di & menyimpan residu, maka prediksi resids dari & resids disimpan-2, dll. (Ini tidak pantas, BTW), Anda akan melihat beta berfluktuasi liar. Tetapi Mult Reg memperkirakan semua beta secara bersamaan , sehingga tidak muncul.

W i k i

$Wiki$

D i g g

$Digg$

F o r u m

$Forum$

— gung - Reinstate Monica

Jika "Tumpang tindih muncul di yang pertama bukan di yang terakhir" bagaimana persamaan regresi dapat mencerminkan varian bersama? Jika Betas menunjukkan kontribusi masing-masing IV ketika efek dari semua IV lainnya dihilangkan secara statistik, bagian mana dari rumus regresi yang mencerminkan daya prediksi varians bersama yang dihapus? Atau, bagaimana persamaan regresi dapat menunjukkan apa yang akan terjadi pada Y yang diprediksi jika Anda menambah salah satu IV dengan 1 jika tumpang tindih tidak tercermin dalam Betas? Pertanyaan ketiga: dalam analisis MR data yang mendasari diagram Venn akankah Forum beta = 0?

— Joel W.

Tumpang tindih dalam ujian , bukan beta - saya tidak yakin bagaimana lagi untuk mengatakannya. Setiap beta menunjukkan efek pada variabel respon dari perubahan 1-unit dalam kovariat, dengan yang lainnya tetap konstan ; beta yang diberikan hampir pasti tidak akan sama jika kovariat lainnya dikeluarkan dari model. Jika diagram Venn secara akurat mencerminkan proses pembuatan data sebenarnya, maka nilai sebenarnya untuk , tetapi perkiraan empiris pada dasarnya tidak pernah sama dengan 0 dalam praktiknya.

β_{F} = 0

$\beta_{F}=0$

— gung - Reinstate Monica

@ MarkWhite, jawaban siswa sebagian besar OK. Pernyataan bahwa ketika X1 & X2 berkorelasi sempurna beta mereka setengahnya tidak benar; ketika r = 1 model tidak dapat diidentifikasi (cf, di sini ). Saat r semakin mendekati 1, estimasi beta akan tergantung pada hubungan dalam data sampel & dapat sangat bervariasi dari sampel ke sampel.

— gung - Reinstate Monica

Peter Kennedy memiliki deskripsi yang bagus tentang diagram Ballentine / Venn untuk regresi dalam bukunya dan artikel BEJ , termasuk kasus-kasus di mana mereka dapat menyesatkan Anda.

Intinya adalah bahwa variasi area berbintang dibuang hanya untuk memperkirakan dan menguji koefisien kemiringan. Variasi itu ditambahkan kembali untuk tujuan memprediksi dan menghitung . $R^2$

— Dimitriy V. Masterov
sumber

+1, saya akan menambahkan "untuk memperkirakan" dan menguji "koefisien kemiringan", tetapi poin tentang itu dimasukkan dalam adalah bagus.

R^{2}

$R^2$

— gung - Reinstate Monica

Memang dan dilakukan.

— Dimitriy V. Masterov

Apakah area yang berkilau bintangnya digunakan untuk menghitung prediksi y? Jika demikian, di manakah dalam formula prediksi apakah area yang berkilau bintang berkontribusi pada prediksi y? Dengan kata lain, istilah atau istilah apa dalam rumus prediksi yang mencerminkan area yang berkilau bintangnya?

— Joel W.

Saya menyadari ini adalah utas (sangat) kuno, tetapi karena salah satu rekan saya mengajukan pertanyaan yang sama minggu ini dan tidak menemukan apa pun di Web yang bisa saya tunjukkan kepadanya, saya pikir saya akan menambahkan dua sen "untuk anak cucu" sini. Saya tidak yakin bahwa jawaban yang diberikan sampai saat ini menjawab pertanyaan OP.

Saya akan menyederhanakan masalah untuk melibatkan hanya dua variabel independen; sangat mudah untuk memperluasnya menjadi lebih dari dua. Pertimbangkan skenario berikut: dua variabel independen (X1 dan X2), variabel dependen (Y), 1000 pengamatan, dua variabel independen sangat berkorelasi satu sama lain (r = 0,99), dan masing-masing variabel independen berkorelasi dengan dependen variabel (r = .60). Tanpa kehilangan generalitas, standarisasi semua variabel menjadi rata-rata nol dan standar deviasi satu, sehingga istilah intersep akan menjadi nol di setiap regresi.

Menjalankan regresi linier sederhana Y pada X1 akan menghasilkan r-squared 0,36 dan nilai b1 0,6. Demikian pula, menjalankan regresi linier sederhana Y pada X2 akan menghasilkan r-squared 0,36 dan nilai b1 0,6.

Menjalankan regresi berganda Y pada X1 dan X2 akan menghasilkan r-kuadrat hanya sedikit lebih tinggi dari 0,36, dan b1 dan b2 mengambil nilai 0,3. Dengan demikian, variasi bersama dalam Y ditangkap dalam KEDUA b1 dan b2 (sama).

Saya pikir OP mungkin telah membuat asumsi yang salah (tapi benar-benar dapat dipahami): yaitu, bahwa ketika X1 dan X2 semakin dekat dan semakin dekat untuk dikorelasikan secara sempurna, nilai-b mereka dalam persamaan regresi berganda semakin dekat dan dekat dengan NOL. Bukan itu masalahnya. Faktanya, ketika X1 dan X2 semakin dekat dan semakin dekat untuk dikorelasikan secara sempurna, nilai-b mereka dalam regresi berganda semakin dekat dan lebih dekat ke SETENGAH dari nilai-b dalam regresi linier sederhana dari salah satu dari mereka. Namun, ketika X1 dan X2 semakin dekat dan semakin dekat untuk dikorelasikan dengan sempurna, KESALAHAN STANDAR dari b1 dan b2 bergerak semakin dekat dan semakin dekat hingga tak terbatas, sehingga nilai-t menyatu pada nol. Jadi, nilai-t akan menyatu pada nol (yaitu, tidak ada hubungan linier UNIK antara X1 dan Y atau X2 dan Y),

Jadi, jawaban untuk pertanyaan OP adalah bahwa, ketika korelasi antara X1 dan X2 mendekati kesatuan, masing-masing pendekatan koefisien parsial kemiringan berkontribusi sama terhadap prediksi nilai Y, meskipun variabel independen tidak menawarkan penjelasan UNIK tentang dependen variabel.

Jika Anda ingin memeriksa ini secara empiris, buat dataset buatan (... Saya menggunakan makro SAS bernama Corr2Data.sas ...) yang memiliki karakteristik yang dijelaskan di atas. Periksa nilai b, kesalahan standar, dan nilai-t: Anda akan menemukan bahwa nilai-nilai itu persis seperti yang dijelaskan di sini.

HTH // Phil

— Siswa
sumber

Ini penjelasan yang luar biasa, terima kasih. Saya mencoba mensimulasikan situasi yang berbeda dalam R, dan saya sampai pada kesimpulan bahwa Anda tidak dapat menghilangkan variabilitas bersama jika n terlalu besar, atau jika korelasi antara output (Y) dan komponen bersama (X1 dan X2 ) terlalu tinggi. Tetapi mengapa nilai-t mencerminkan sesuatu yang bukan kontribusi unik X1 dan X2, untuk memulai? Jika nilai-t regresi mencerminkan kontribusi unik dari para prediktor, kita seharusnya tidak melihat variabilti bersama mempengaruhi nilai-t sama sekali, tetapi kami melakukannya. Mengapa demikian?

— Galit