Sebagai ilustrasi saya akan mengambil model regresi yang kurang kompleks mana variabel prediktor dan dapat dikorelasikan. Katakanlah slope dan keduanya positif sehingga kita dapat mengatakan bahwa (i) meningkat ketika meningkat, jika dijaga konstan, karena positif; (ii) meningkat seiring meningkat, jika dinyatakan konstan, karena positif.Y=β1+β2X2+β3X3+ϵX2X3X 2 β 3β2β3YX2X3β2YX3X2β3
Perhatikan bahwa penting untuk menafsirkan koefisien regresi berganda dengan mempertimbangkan apa yang terjadi ketika variabel-variabel lain tetap konstan ("ceteris paribus"). Misalkan saya baru saja mundur terhadap dengan model . Perkiraan saya untuk koefisien kemiringan , yang mengukur efek pada dari peningkatan satu unit di tanpa memegang konstanta , mungkin berbeda dari perkiraan saya dari regresi berganda - yang juga mengukur efek pada dari peningkatan satu unit di , tapi ituYX2Y=β′1+β′2X2+ϵ′β′2YX2 X 3X3β2YX2X 3 ^ β ′tidak memegang konstan. Masalah dengan perkiraan saya adalah bahwa ia menderita bias variabel yang dihilangkan jika dan berkorelasi.X3β′2^ X2X3X2X3
Untuk memahami alasannya, bayangkan dan berkorelasi negatif. Sekarang ketika saya meningkatkan oleh satu unit, saya tahu nilai rata-rata harus meningkat sejak . Tapi seperti meningkat, jika kita tidak memegang konstan maka cenderung menurun, dan karena ini akan cenderung mengurangi nilai rata-rata dari . Jadi efek keseluruhan dari peningkatan satu unit dalam akan tampak lebih rendah jika saya mengizinkan juga bervariasi, karenanya . Hal-hal semakin buruk, semakin kuat danX2X3X2Yβ2>0X2X3X3β3>0YX2X3β′2<β2X2X3X 3 β 3 β ' 2 < 0 X 2 Y berkorelasi, dan semakin besar efek hingga - dalam kasus yang sangat parah kita bahkan dapat menemukan walaupun kita tahu bahwa, paribus, memiliki pengaruh positif pada !X3β3β′2<0X2Y
Mudah-mudahan sekarang Anda bisa melihat mengapa menggambar grafik terhadap akan menjadi cara yang buruk untuk memvisualisasikan hubungan antara dan dalam model Anda. Dalam contoh saya, mata Anda akan tertarik ke garis yang paling cocok dengan kemiringan yang tidak mencerminkan dari model regresi Anda. Dalam kasus terburuk, model Anda dapat memprediksi bahwa meningkat seiring meningkat (dengan variabel lain dianggap konstan), namun titik-titik pada grafik menyarankan menurun ketika meningkat.YX2YX2β′2^β2^YX2YX2
Masalahnya adalah bahwa dalam grafik sederhana terhadap , variabel lainnya tidak dianggap konstan. Ini adalah wawasan penting tentang manfaat dari plot variabel tambahan (juga disebut plot regresi parsial) - menggunakan teorema Frisch-Waugh-Lovell untuk "memisah-misahkan" efek dari prediktor lain. Sumbu horizonal dan vertikal pada plot mungkin paling mudah dipahami * sebagai " setelah prediktor lain dicatat" dan " setelah prediktor lain dicatat". Anda sekarang dapat melihat hubungan antara dan setelah semua prediktor lain dihitungYX2X2YYX2 . Jadi misalnya, kemiringan yang dapat Anda lihat di setiap plot sekarang mencerminkan koefisien regresi parsial dari model regresi berganda asli Anda.
Banyak nilai plot variabel yang ditambahkan muncul pada tahap diagnostik regresi, terutama karena residu dalam plot variabel yang ditambahkan adalah residu dari regresi berganda yang asli. Ini berarti outlier dan heteroskedastisitas dapat diidentifikasi dengan cara yang mirip dengan ketika melihat plot model regresi sederhana daripada beberapa. Poin yang berpengaruh juga dapat dilihat - ini berguna dalam regresi berganda karena beberapa poin yang berpengaruh tidak jelas dalam data asli sebelum Anda mempertimbangkan variabel lain. Dalam contoh saya, nilai cukup besar mungkin tidak terlihat tidak pada tempatnya dalam tabel data, tetapi jika nilai besar juga meskipun danX2X3X2X3berkorelasi negatif maka kombinasinya jarang. "Akuntansi untuk prediktor lain", nilai itu luar biasa besar dan akan lebih menonjol di plot variabel tambahan Anda.X2
∗ Lebih teknis mereka akan menjadi residu dari menjalankan dua regresi berganda lainnya: residual dari regresi terhadap semua prediktor selain pergi pada sumbu vertikal, sedangkan residu dari regresi terhadap semua prediktor lainnya pergi pada sumbu horizontal. Inilah yang benar-benar oleh legenda " diberikan kepada orang lain" dan " diberikan kepada orang lain". Karena sisa rata-rata dari kedua regresi ini adalah nol, titik rata-rata ( diberikan kepada orang lain,YX2X2YX2X2Ydiberikan orang lain) hanya akan (0, 0) yang menjelaskan mengapa garis regresi dalam plot variabel yang ditambahkan selalu melewati titik asal. Tetapi saya sering menemukan bahwa menyebutkan sumbu hanyalah residu dari regresi lain membingungkan orang (tidak mengherankan mungkin karena kita sekarang berbicara tentang empat regresi berbeda!) Jadi saya telah mencoba untuk tidak memikirkan masalah ini. Pahami mereka sebagai " memberi orang lain" dan " memberi orang lain" dan Anda harus baik-baik saja.X2Y