Bagaimana cara mendapatkan estimator kuadrat terkecil untuk regresi linier berganda?


30

Dalam kasus regresi linier sederhana , Anda dapat memperoleh estimator kuadrat terkecil sehingga Anda tidak perlu tahu untuk memperkirakanβ 1 = Σ ( x i - ˉ x ) ( y i - ˉ y )y=β0+β1xβ 0 β 1β^1=(xix¯)(yiy¯)(xix¯)2β^0β^1

Misalkan saya memiliki , bagaimana cara memperoleh tanpa memperkirakan ? atau ini tidak mungkin?β 1 β 2y=β1x1+β2x2β^1β^2


1
Anda bisa menghilangkan salah satu variabel dan masih mendapatkan estimasi yang tidak bias dari yang lain jika mereka independen.
david25272

Jawaban:


51

Derivasi dalam notasi matriks

Mulai dari , yang benar-benar sama dengany=Xb+ϵ

[y1y2yN]=[x11x12x1Kx21x22x2KxN1xN2xNK][b1b2bK]+[ϵ1ϵ2ϵN]

semuanya bermuara pada meminimalkan :ee

ϵϵ=[e1e2eN][e1e2eN]=i=1Nei2

Jadi meminimalkan ee memberi kita:

e e = ( y - X b ) ( y - X b )minb ee=(yXb)(yXb)

e e = y y - 2 b X y + b X X bminb ee=yy2bXy+bXXb

(ee)b=2Xy+2XXb=!0

XXb=Xy

b=(XX)1Xy

Satu hal matematika terakhir, syarat orde kedua minimum mensyaratkan bahwa matriks adalah positif pasti. Persyaratan ini dipenuhi jika memiliki peringkat penuh.XXXX

Derivasi yang lebih akurat yang melewati semua langkah dalam dept yang lebih besar dapat ditemukan di bawah http://economictheoryblog.com/2015/02/19/ols_estimator/


3
Derivasi ini persis apa yang saya cari. TANPA LANGKAH-LANGKAH TERLENGKAP. Mengejutkan betapa sulitnya menemukan yang sama.
javadba

1
Dalam persamaan matriks, bukankah seharusnya yang kedua *adalah a +? Juga, bukankah seharusnya bukannya untuk mendapatkan dimensi yang cocok? b NbKbN
Alexis Olson

Alexis Olson, kamu benar! Saya mengedit jawaban saya.
Andreas Dibiasi

13

Dimungkinkan untuk memperkirakan hanya satu koefisien dalam regresi berganda tanpa memperkirakan yang lainnya.

Perkiraan diperoleh dengan menghapus efek dari variabel lain dan kemudian mengembalikan residu terhadap residual . Ini dijelaskan dan diilustrasikan Bagaimana tepatnya seseorang mengontrol variabel lain? dan Bagaimana cara menormalkan (a) koefisien regresi? . Keindahan dari pendekatan ini adalah bahwa ia tidak memerlukan kalkulus, tidak ada aljabar linier, dapat divisualisasikan hanya dengan geometri dua dimensi, secara numerik stabil, dan mengeksploitasi hanya satu ide mendasar dari regresi berganda: yaitu mengambil (atau "mengendalikan") ) efek dari satu variabel.x 2 y x 1β1x2yx1


Dalam kasus ini , regresi berganda dapat dilakukan dengan menggunakan tiga langkah regresi biasa:

  1. Regres pada (tanpa istilah konstan!). Biarkan fit menjadi . Perkiraannya adalah Karenanya residualnya adalah Secara geometris, adalah apa yang tersisa dari setelah proyeksi ke dikurangi.x 2 y = α y , 2 x 2 + δ α y , 2 = i y i x 2 iyx2y=αy,2x2+δδ=y-αy,2x2. δyx2

    αy,2=iyix2iix2i2.
    δ=yαy,2x2.
    δyx2
  2. Regress pada (tanpa istilah yang konstan). Biarkan kecocokannya menjadi . Perkiraannya adalah adalahSecara geometris, adalah yang tersisa dari setelah proyeksi ke dikurangi.x1x2x1=α1,2x2+γ

    α1,2=ix1ix2iix2i2.
    γ=x1α1,2x2.
    γx1x2
  3. Regress on (tanpa suku konstan). Perkiraannya adalah adalah . Secara geometris, adalah komponen (yang mewakili dengan diambil) dalam arah (yang mewakili dengan dikeluarkan).δγδ=

    β^1=iδiγiiγi2.
    δ=β^1γ+εβ^1δyx2γx1x2

Perhatikan bahwa belum diperkirakan. β2 Dengan mudah dapat dipulihkan dari apa yang telah diperoleh sejauh ini (seperti dalam kasus regresi biasa dengan mudah diperoleh dari estimasi kemiringan ). The adalah residu untuk regresi bivariat dari pada dan .β^0β^1εyx1x2

Paralel dengan regresi biasa adalah kuat: langkah (1) dan (2) adalah analog dengan mengurangi rata-rata dalam rumus biasa. Jika Anda membiarkan menjadi vektor, Anda sebenarnya akan memulihkan rumus yang biasa.x2

Ini menggeneralisasi dengan cara yang jelas untuk regresi dengan lebih dari dua variabel: untuk memperkirakan , mundur dan secara terpisah terhadap semua variabel lainnya, kemudian mundur residualnya satu sama lain. Pada saat itu tidak ada koefisien lain dalam regresi berganda belum diestimasi.yx1yβ^1yx1y


1
Jawaban yang bagus, berikut adalah teorema umum en.wikipedia.org/wiki/…
JohnK

4

Estimasi kuadrat terkecil biasa dari adalah fungsi linier dari variabel responsβ . Sederhananya, estimasi OLS dari koefisien, , dapat ditulis hanya menggunakan variabel dependen ( ) dan variabel independen ( 's).βYiXki

Untuk menjelaskan fakta ini untuk model regresi umum, Anda perlu memahami aljabar linear kecil. Misalkan Anda ingin memperkirakan koefisien dalam model regresi berganda,(β0,β1,...,βk)

Yi=β0+β1X1i+...+βkXki+ϵi

di mana untuk . Matriks desain adalah matriks mana setiap kolom berisi pengamatan dari variabel dependen . Anda dapat menemukan banyak penjelasan dan derivasi di sini dari rumus yang digunakan untuk menghitung perkiraan koefisien , yaitui = 1 , . . . , N X n × k n k t h X k β = ( β 0 , ß 1 , . . . , Β k )ϵiiidN(0,σ2)i=1,...,nXn×knkthXkβ^=(β^0,β^1,...,β^k)

β^=(XX)1XY

dengan asumsi bahwa kebalikannya ada. Koefisien estimasi adalah fungsi dari data, bukan dari koefisien estimasi lainnya.(XX)1


Saya punya pertanyaan lanjutan, pada kasus regresi sederhana, Anda membuat lalu menjadi matriks dari dan , lalu ikuti . Bagaimana saya harus menulis ulang persamaan dalam kasus saya? yi=β0+β1x¯+β1(xix¯)+eiX(1,...,1)(x1x¯,...,xnx¯)β^=(XX)(1)XY
Saber CN

Dan satu pertanyaan lagi, apakah ini berlaku untuk kasus di mana dan tidak linier, tetapi modelnya masih linier? Misalnya kurva peluruhan , dapatkah saya mengganti eksponensial dengan dan sehingga menjadi pertanyaan awal saya? x1x2y=β1ex1t+β2ex2tx1x2
Saber CN

Dalam komentar pertama Anda, Anda dapat memusatkan variabel (kurangi artinya dari itu) dan gunakan itu adalah variabel independen Anda. Cari "regresi standar". Rumus yang Anda tulis dalam bentuk matriks tidak benar. Untuk pertanyaan kedua, ya Anda bisa melakukannya, model linear adalah yang linear dalam , jadi selama sama dengan kombinasi linear dari , Anda baik-baik saja. βyβ
caburke

2
(+1). Tapi bukankah seharusnya " matrix", bukan ? n×kk×n
miura

3

Satu catatan kecil tentang teori vs praktik. Secara matematis dapat diperkirakan dengan rumus berikut:β0,β1,β2...βn

β^=(XX)1XY

di mana adalah data input asli dan adalah variabel yang ingin kami perkirakan. Ini mengikuti dari meminimalkan kesalahan. Saya akan membuktikan ini sebelum membuat poin praktis kecil.XY

Biarkan menjadi kesalahan yang regresi linier pada titik . Kemudian:eii

ei=yiyi^

Total kuadrat total yang kami buat adalah sekarang:

i=1nei2=i=1n(yiyi^)2

Karena kami memiliki model linier, kami tahu bahwa:

yi^=β0+β1x1,i+β2x2,i+...+βnxn,i

Yang dapat ditulis ulang dalam notasi matriks sebagai:

Y^=Xβ

Kami tahu itu

i=1nei2=EE

Kami ingin meminimalkan kesalahan kuadrat total, sehingga ekspresi berikut harus sekecil mungkin

EE=(YY^)(YY^)

Ini sama dengan:

EE=(YXβ)(YXβ)

Penulisan ulang mungkin tampak membingungkan tetapi mengikuti dari aljabar linier. Perhatikan bahwa matriks berperilaku mirip dengan variabel ketika kita mengalikannya dalam beberapa hal.

Kami ingin menemukan nilai sehingga ungkapan ini sekecil mungkin. Kita perlu membedakan dan menetapkan turunan sama dengan nol. Kami menggunakan aturan rantai di sini.β

dEEdβ=2XY+2XXβ=0

Ini memberi:

XXβ=XY

Sehingga akhirnya:

β=(XX)1XY

Jadi secara matematis kita tampaknya telah menemukan solusi. Namun ada satu masalah, dan itu adalah sangat sulit untuk dihitung jika matriks sangat sangat besar. Ini mungkin memberikan masalah akurasi numerik. Cara lain untuk menemukan nilai optimal untuk dalam situasi ini adalah dengan menggunakan jenis metode gradient descent. Fungsi yang ingin kami optimalkan tidak terikat dan cembung sehingga kami juga akan menggunakan metode gradien dalam praktiknya jika perlu. (XX)1Xβ


kecuali bahwa Anda tidak benar-benar perlu menghitung ...(XX)1
user603

titik yang valid. kita juga dapat menggunakan proses gram schmidt, tetapi saya hanya ingin mengatakan bahwa menemukan nilai optimal untuk vektor juga dapat dilakukan secara numerik karena cembung. β
Vincent Warmerdam

2

Derivasi sederhana dapat dilakukan hanya dengan menggunakan interpretasi geometris LR.

Regresi linier dapat diartikan sebagai proyeksi dari ke ruang kolom . Dengan demikian, kesalahan, adalah ortogonal terhadap ruang kolom dari . YXϵ^X

Oleh karena itu, produk dalam antara dan kesalahan harus 0, yaitu, X

<X,yXβ^>=0

XyXXβ^=0

Xy=XXβ^

Yang menyiratkan bahwa,

(XX)1Xy=β^ .

Sekarang hal yang sama dapat dilakukan oleh:

(1) Memproyeksikan ke (kesalahan ), ,YX2δ=YX2D^D^=(X2X2)1X2y

(2) Memproyeksikan ke (kesalahan ), ,X1X2γ=X1X2G^G^=(X1X1)1X1X2

dan akhirnya,

(3) Memproyeksikan ke ,δγβ^1

masukkan deskripsi gambar di sini

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.