Bagaimana istilah kesalahan regresi dapat dikorelasikan dengan variabel penjelas?


22

Kalimat pertama dari halaman wiki ini mengklaim bahwa "Dalam ekonometrika, masalah endogenitas terjadi ketika variabel penjelas berkorelasi dengan istilah kesalahan. 1 "

Pertanyaan saya adalah bagaimana ini bisa terjadi? Bukankah beta regresi dipilih sedemikian sehingga istilah kesalahannya ortogonal ke ruang kolom dari matriks desain?


9
Beta regresi dipilih sedemikian rupa sehingga residualnya ortogonal ke ruang kolom dari matriks desain. Dan ini dapat memberikan perkiraan mengerikan dari beta sejati jika istilah kesalahan tidak ortogonal ke ruang kolom dari matriks desain! (yaitu jika model Anda tidak memenuhi asumsi yang diperlukan untuk secara konsisten memperkirakan koefisien dengan regresi).
Matthew Gunn

3
Orthogonality dari istilah kesalahan dan ruang kolom dari matriks desain bukan properti metode estimasi Anda (mis. Regresi kuadrat terkecil biasa), itu adalah properti model (mis. ). yi=a+bxi+ϵi
Matthew Gunn

Saya pikir hasil edit Anda harus menjadi pertanyaan baru karena Anda tampaknya telah mengubah secara substansial apa yang Anda minta. Anda selalu dapat menautkan kembali ke yang ini. (Saya pikir Anda perlu mengatakannya dengan lebih baik juga - ketika Anda menulis "apa efeknya" maka saya tidak jelas tentang efek apa ?) Perhatikan bahwa mengajukan pertanyaan baru umumnya menghasilkan lebih banyak perhatian yang akan menjadi keuntungan untuk Anda lebih dari mengedit yang sudah ada.
Silverfish

Jawaban:


28

Anda menggabungkan dua jenis istilah "kesalahan". Wikipedia sebenarnya memiliki artikel yang ditujukan untuk perbedaan antara kesalahan dan residu .

Dalam regresi OLS, residual (perkiraan kesalahan atau gangguan istilah Anda) memang dijamin tidak berkorelasi dengan variabel prediktor, dengan asumsi regresi berisi istilah intersep.ε^

Tetapi kesalahan "benar" mungkin berkorelasi dengan kesalahan tersebut , dan inilah yang dianggap sebagai endogenitas.ε

Untuk mempermudah, pertimbangkan model regresi (Anda mungkin melihat ini digambarkan sebagai " proses pembuatan data " yang mendasarinya, atau "DGP", model teoritis yang kami asumsikan menghasilkan nilai ):y

yi=β1+β2xi+εi

Tidak ada alasan, pada prinsipnya, mengapa tidak dapat dikorelasikan dengan dalam model kami, betapapun kami lebih suka untuk tidak melanggar asumsi OLS standar dengan cara ini. Sebagai contoh, mungkin saja bergantung pada variabel lain yang telah dihilangkan dari model kami, dan ini telah dimasukkan ke dalam istilah gangguan (the adalah tempat kita menggumpalkan semua hal selain yang memengaruhi ). Jika variabel yang dihilangkan ini juga berkorelasi dengan , maka pada gilirannya akan dikorelasikan dengan dan kami memiliki endogenitas (khususnya, bias variabel yang dihilangkan ).ε y ε x y x ε xxεyεxyxεx

Ketika Anda memperkirakan model regresi Anda pada data yang tersedia, kami dapatkan

yi=β^1+β^2xi+ε^i

Karena cara OLS bekerja *, residual akan tidak berkorelasi dengan . Tapi itu tidak berarti kita telah menghindari endogenitas - itu hanya berarti bahwa kita tidak dapat mendeteksinya dengan menganalisis korelasi antara dan , yang akan menjadi (hingga kesalahan numerik) nol. Dan karena asumsi OLS telah dilanggar, kami tidak lagi dijamin properti yang bagus, seperti ketidakberpihakan, kami sangat menikmati OLS. Taksiran kami akan bias. x ε x β 2ε^xε^xβ^2


Ε x() Fakta bahwa tidak berkorelasi dengan mengikuti segera dari "persamaan normal" yang kami gunakan untuk memilih perkiraan terbaik kami untuk koefisien.ε^x

Jika Anda tidak terbiasa dengan pengaturan matriks, dan saya tetap menggunakan model bivariat yang digunakan dalam contoh saya di atas, maka jumlah residu kuadrat adalah dan untuk menemukan optimal dan yang meminimalkan ini kita menemukan persamaan normal, pertama persamaan pertama - Kondisi pesanan untuk perkiraan intersep:b 1 = β 1 b 2 = β 2S(b1,b2)=i=1nεi2=i=1n(yib1b2xi)2b1=β^1b2=β^2

Sb1=i=1n2(yib1b2xi)=2i=1nε^i=0

yang menunjukkan bahwa jumlah (dan karenanya berarti) dari residual adalah nol, sehingga rumus untuk kovarians antara dan variabel apa pun kemudian direduksi menjadi . Kami melihat ini nol dengan mempertimbangkan kondisi orde pertama untuk kemiringan yang diperkirakan, yaitu itu x1ε^x1n1i=1nxiε^i

Sb2=i=1n2xi(yib1b2xi)=2i=1nxiε^i=0

Jika Anda terbiasa bekerja dengan matriks, kami dapat menggeneralisasi ini ke regresi berganda dengan mendefinisikan ; syarat orde pertama untuk meminimalkan pada optimal adalah:S ( b ) b = βS(b)=εε=(yXb)(yXb)S(b)b=β^

dSdb(β^)=ddb(yybXyyXb+bXXb)|b=β^=2Xy+2XXβ^=2X(yXβ^)=2Xε^=0

Ini menyiratkan setiap baris , dan karenanya setiap kolom , ortogonal ke . Kemudian jika matriks desain memiliki kolom yang (yang terjadi jika model Anda memiliki istilah intersep), kita harus memiliki sehingga residual memiliki jumlah nol dan rata-rata nol . Kovarians antara dan variabel pun lagi dan untuk setiap variabel termasuk dalam model kami, kami tahu jumlah ini adalah nol, karena X ε X Σ n i = 1 ε i = 0 ε x 1XXε^Xi=1nε^i=0ε^xx ε ε x1n1i=1nxiε^ixε^adalah ortogonal untuk setiap kolom dari matriks desain. Karenanya ada nol kovarians, dan nol korelasi, antara dan variabel prediktor apa pun .ε^x

Jika Anda lebih suka tampilan yang lebih geometris , keinginan kami bahwa terletak sedekat mungkin dengan dalam cara Pythagoras , dan fakta bahwa dibatasi pada ruang kolom dari matriks desain , mendiktekan bahwa harus menjadi proyeksi ortogonal dari diamati pada ruang kolom itu. Karenanya vektor residual adalah orthogonal untuk setiap kolom , termasuk vektor yang y y X y y ε =y - y X1nXy^y y^Xy^yε^=yy^X1njika istilah intersep dimasukkan dalam model. Seperti sebelumnya, ini menyiratkan jumlah residual adalah nol, di mana ortogonalitas vektor residual dengan kolom memastikan itu tidak berkorelasi dengan masing-masing prediktor tersebut.X

Vektor dalam ruang subjek regresi berganda

Tapi tidak ada yang kami lakukan di sini yang mengatakan apa pun tentang kesalahan sebenarnya . Dengan asumsi ada istilah intersep dalam model kami, residual hanya tidak berkorelasi dengan sebagai konsekuensi matematis dari cara kami memilih untuk memperkirakan koefisien regresi . Cara kami memilih kami mempengaruhi nilai prediksi kami dan dan karenanya residual kami . Jika kita memilih oleh OLS, kita harus menyelesaikan persamaan normal dan ini menegakkan bahwa perkiraan residu kami tidak berkorelasi denganε x β β y ε = y - y β ε x β y E ( y ) ε = y - E ( y ) ε x ε xεε^xβ^β^y^ε^=yy^β^ε^x . Pilihan kami mempengaruhi tetapi tidak dan karenanya tidak membebankan kondisi pada kesalahan sebenarnya . Akan menjadi kesalahan untuk berpikir bahwa entah bagaimana "mewarisi" ketidakcocokannya dengan dari asumsi OLS bahwa harus tidak berkorelasi dengan . Ketidakcocokan muncul dari persamaan normal.β^y^E(y)ε=yE(y)ε^xεx


1
apakah berarti regresi menggunakan data populasi? Atau apa artinya tepatnya? yi=β1+β2xi+εi
Penduduk utara

@ user1559897 Ya, beberapa buku pelajaran akan menyebutnya "garis regresi populasi" atau PRL. Ini adalah model teoritis yang mendasari populasi; Anda juga dapat melihat ini disebut "proses menghasilkan data" di beberapa sumber. (Saya cenderung sedikit berhati-hati untuk mengatakan itu adalah "regresi pada populasi" ... jika Anda memiliki populasi yang terbatas, misalnya 50 negara bagian AS, di mana Anda melakukan regresi, maka ini tidak sepenuhnya benar. Jika Anda benar-benar menjalankan populasi pada beberapa data dalam perangkat lunak Anda, Anda benar-benar berbicara tentang perkiraan versi regresi, dengan "topi")
Silverfish

Saya pikir saya mengerti apa yang Anda katakan. Jika saya mengerti Anda dengan benar, istilah kesalahan dalam model bisa memiliki harapan yang tidak nol karena ini adalah proses pembuatan teoretis, bukan regresi ols. yi=β1+β2xi+εi
Penduduk utara

Ini adalah jawaban yang bagus dari perspektif inferensi statistik. Menurut Anda apa pengaruhnya jika akurasi prediksi menjadi perhatian utama? Lihat hasil edit posting.
Penduduk utara

16

Contoh sederhana:

  • Biarkan menjadi jumlah burger yang saya beli pada kunjungan ixi,1i
  • Biarkan menjadi jumlah roti yang saya beli.xi,2
  • Biarkan menjadi harga burgerb1
  • Biarkan menjadi harga roti.b2
  • Tidak tergantung pada pembelian burger dan roti saya, izinkan saya membelanjakan jumlah acak mana adalah skalar dan adalah rata-rata nol variabel acak. Kami memiliki . a ϵ i E [ ϵ i | X ] = 0a+ϵiaϵiE[ϵi|X]=0
  • Biarkan menjadi pengeluaran saya untuk perjalanan ke toko kelontong.yi

Proses menghasilkan data adalah:

yi=a+b1xi,1+b2xi,2+ϵi

Jika kami menjalankan regresi itu, kami akan mendapatkan taksiran , , dan , dan dengan data yang cukup, mereka akan konvergen pada , , dan masing-masing. b 1 b 2ab1b2a^b^1b^2ab1b2

(Catatan teknis: Kami membutuhkan sedikit keacakan sehingga kami tidak membeli tepat satu roti untuk setiap burger yang kami beli di setiap kunjungan ke toko bahan makanan. Jika kami melakukan ini, dan akan menjadi collinear .)x 2x1x2

Contoh bias variabel yang dihilangkan:

Sekarang mari kita perhatikan modelnya:

yi=a+b1xi,1+ui

Amati bahwa . Karenanya Cov ( x 1 , u )ui=b2xi,2+ϵi

Cov(x1,u)=Cov(x1,b2x2+ϵ)=b2Cov(x1,x2)+Cov(x1,ϵ)=b2Cov(x1,x2)

Apakah ini nol? Hampir pasti tidak! Pembelian burger dan pembelian roti hampir pasti berkorelasi! Karenanya, dan berkorelasi!x 2 u x 1x1x2ux1

Apa yang terjadi jika Anda mencoba menjalankan regresi?

Jika Anda mencoba menjalankan:

yi=a^+b^1xi,1+u^i

Perkiraan Anda hampir pasti merupakan perkiraan buruk dari karena estimasi regresi OLS akan dibangun sehingga dan tidak berkorelasi dalam sampel Anda. Tapi sebenarnya berkorelasi dengan dalam populasi!b1 a , b , u u x1ux1b^1b1a^,b^,u^u^x1ux1

Apa yang akan terjadi dalam praktik jika Anda melakukan ini? Perkiraan Anda dari harga burger akan JUGA pickup harga roti. Katakanlah setiap kali Anda membeli burger $ 1, Anda cenderung membeli roti $ 0,50 (tetapi tidak setiap saat). Perkiraan Anda tentang harga burger mungkin $ 1,40. Anda akan mengambil saluran burger dan saluran roti dalam perkiraan harga burger Anda.b^1


Saya suka contoh roti burger Anda. Anda menjelaskan masalah dari perspektif inferensi statistik, yaitu menyimpulkan efek burger pada harga. Hanya ingin tahu apa efeknya jika yang saya pedulikan hanyalah prediksi, yaitu prediksi MSE pada dataset uji? Intuisi adalah bahwa itu tidak akan sebaik, tetapi apakah ada teori untuk membuatnya lebih tepat? (ini memperkenalkan lebih banyak bias, tetapi lebih sedikit variansnya, sehingga efek keseluruhannya tidak tampak bagi saya.)
penghuni utara

1
@ user1559897 Jika Anda hanya ingin memprediksi pengeluaran, maka memprediksi pengeluaran menggunakan jumlah burger dan memperkirakan karena sekitar $ 1,40 mungkin bekerja dengan cukup baik. Jika Anda memiliki cukup data, menggunakan jumlah burger dan roti pastinya akan bekerja lebih baik. Dalam sampel singkat, regularlization (LASSO) mungkin mengirim salah satu koefisien atau ke nol. Saya pikir Anda benar mengakui bahwa apa yang Anda lakukan dalam regresi memperkirakan fungsi harapan bersyarat. Maksud saya adalah untuk itu berfungsi untuk menangkap efek kausal, Anda perlu asumsi tambahan. L1b1b2b^1L1b1b2
Matthew Gunn

3

Misalkan kita sedang membangun regresi dari berat seekor binatang pada ketinggiannya. Jelas, berat lumba-lumba akan diukur secara berbeda (dalam prosedur yang berbeda dan menggunakan instrumen yang berbeda) dari berat gajah atau ular. Ini berarti bahwa kesalahan model akan tergantung pada ketinggian, yaitu variabel penjelas. Mereka bisa bergantung dalam banyak cara berbeda. Misalnya, mungkin kita cenderung sedikit melebih-lebihkan bobot gajah dan sedikit meremehkan ular, dll.

Jadi, di sini kami menetapkan bahwa mudah untuk berakhir dengan situasi ketika kesalahan berkorelasi dengan variabel penjelas. Sekarang, jika kita mengabaikan ini dan melanjutkan ke regresi seperti biasa, kita akan melihat bahwa regresi residual yang tidak berkorelasi dengan matriks desain. Ini karena, dengan desain regresi memaksa residu menjadi tidak berkorelasi. Perhatikan, juga bahwa residual yang tidak pada kesalahan , mereka yang perkiraankesalahan. Jadi, terlepas dari apakah kesalahan itu sendiri berkorelasi atau tidak dengan variabel independen, estimasi kesalahan (residu) tidak akan berkorelasi dengan pembangunan solusi persamaan regresi.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.