Solusi analitik untuk estimasi koefisien regresi-linier


9

Saya mencoba memahami notasi matriks, dan bekerja dengan vektor dan matriks.

Saat ini saya ingin memahami bagaimana vektor estimasi koefisien dalam regresi berganda dihitung.β^

Persamaan dasarnya tampaknya

ddβ(yXβ)(yXβ)=0.

Sekarang bagaimana saya menyelesaikan vektor β sini?

Sunting : Tunggu, saya mandek. Saya di sini sekarang dan tidak tahu bagaimana melanjutkan:

ddβ((y1y2yn)(1x11x12x1p1x21x22x2p1xn1xn2xnp)(β0β1βp))((y1y2yn)(1x11x12x1p1x21x22x2p1xn1xn2xnp)(β0β1βp))

ddβi=1n(yi(1xi1xi2xip)(β0β1βp))2

Dengan untuk semua menjadi intersep:ixi0=1i

ddβi=1n(yik=0pxikβk)2

Bisakah Anda mengarahkan saya ke arah yang benar?


@ GaBorgulya, terima kasih atas hasil editnya, tidak tahu smallmatrix, jadi tidak mencoba mengedit, karena solusi biasa dari memecah formula dalam beberapa baris tidak akan bekerja di sini.
mpiktas

Jawaban:


12

Kita punya

ddβ(yXβ)(yXβ)=2X(yXβ) .

Ini dapat ditunjukkan dengan menulis persamaan secara eksplisit dengan komponen. Misalnya, tulis alih-alih . Kemudian ambil turunan sehubungan dengan , , ..., dan susun semuanya untuk mendapatkan jawabannya. Untuk ilustrasi yang cepat dan mudah, Anda dapat mulai dengan . β β 1 β 2 β p p = 2(β1,,βp)ββ1β2βpp=2

Dengan pengalaman seseorang mengembangkan aturan umum, beberapa di antaranya diberikan, misalnya dalam dokumen itu .

Edit untuk memandu bagian tambahan dari pertanyaan

Dengan , kita punyap=2

(yXβ)(yXβ)=(y1x11β1x12β2)2+(y2x21β1x22β2)2

Turunan sehubungan dengan adalahβ1

2x11(y1x11β1x12β2)2x21(y2x21β1x22β2)

Demikian pula, turunan sehubungan dengan adalahβ2

2x12(y1x11β1x12β2)2x22(y2x21β1x22β2)

Karenanya, turunan sehubungan dengan adalahβ=(β1,β2)

(2x11(y1x11β1x12β2)2x21(y2x21β1x22β2)2x12(y1x11β1x12β2)2x22(y2x21β1x22β2))

Sekarang, perhatikan Anda dapat menulis ulang ekspresi terakhir sebagai

2(x11x21x12x22)(y1x11β1x12β2y2x21β1x22β2)=2X(yXβ)

Tentu saja, semuanya dilakukan dengan cara yang sama untuk lebih besar .p


Luar biasa, saya mencari jenis pdf itu. Terima kasih banyak!
Alexander Engelhardt

Oh, saya pikir saya bisa melakukannya sendiri sekarang, tetapi saya tidak bisa. Bisakah Anda memberi tahu saya apakah langkah saya benar atau jika saya harus mengambil "cara lain" untuk menyelesaikan ini?
Alexander Engelhardt

@Alexx Hardt: Persamaan pertama saya di edit adalah sama dengan persamaan terakhir Anda dalam kasus tertentu di mana p = 2. Jadi, Anda dapat meniru perhitungan saya untuk komponen 3, 4, ..., hal.
ocram

Terima kasih lagi :) Saya pikir saya akan benar-benar menggunakan ketiga saran. Saya sedang membangun .pdf yang menjelaskan dan merangkum aljabar matriks statistik dasar, karena saya entah bagaimana tidak pernah ingin mempelajarinya ketika saya mempelajarinya di kelas saya. Untuk menyelesaikannya dengan tiga cara berbeda akan membantu saya memahaminya dengan lebih baik, saya harap.
Alexander Engelhardt

Oh, tapi ini untuk p = 2 dan n = 2, kan? Saya akan menuliskannya dengan n = 3 saya pikir.
Alexander Engelhardt

13

Anda juga dapat menggunakan formula dari buku masak Matrix . Kita punya

(yXβ)(yXβ)=yyβXyyXβ+βXXβ

Sekarang ambil turunan dari setiap istilah. Anda mungkin ingin memperhatikan bahwa . Turunan dari istilah sehubungan dengan adalah nol. Istilah yang tersisay y ββXy=yXβyyβ

βXXβ2yXβ

adalah bentuk fungsi

f(x)=xAx+bx,

dalam rumus (88) dalam buku di halaman 11, dengan , dan . Turunannya diberikan dalam rumus (89):A = X X b = - 2 X yx=βA=XXb=2Xy

fx=(A+A)x+b

begitu

β(yXβ)(yXβ)=(XX+(XX))β2Xy

Sekarang karena kami mendapatkan solusi yang diinginkan:(XX)=XX

XXβ=Xy

+1 mpiktas: Solusi Anda lebih cerdik daripada milik saya dan saya pikir itu harus digunakan dalam situasi praktis yang lebih kompleks.
ocram

1
@ocram, terima kasih. Saya tidak akan menyebutnya cerdik, ini adalah aplikasi standar dari formula yang ada. Anda hanya perlu mengetahui
rumusnya

8

Berikut adalah teknik untuk meminimalkan jumlah kuadrat dalam regresi yang sebenarnya memiliki aplikasi ke pengaturan yang lebih umum dan yang menurut saya berguna.

Mari kita coba hindari kalkulus vektor-matriks sekaligus.

Misalkan kita tertarik untuk meminimalkan mana , dan . Kami berasumsi untuk kesederhanaan bahwa dan .yR n XR n × p β R p p n r a n k ( X ) = p

E=(yXβ)T(yXβ)=yXβ22,
yRnXRn×pβRppnrank(X)=p

Untuk setiap , kita mendapatkan E=y-X β +X β -Xβ 2 2 =y-X β 2 2 +X(β - β ) 2 2 -2(β- β )TXT(y- Xβ^Rp

E=yXβ^+Xβ^Xβ22=yXβ^22+X(ββ^)222(ββ^)TXT(yXβ^).

Jika kita dapat memilih (menemukan!) Vektor sehingga istilah terakhir di sisi kanan adalah nol untuk setiap , maka kita akan selesai, karena itu akan menyiratkan bahwa . βminβEy-X β 2 2β^ βminβEyXβ^22

Tapi, untuk semua jika dan hanya jika dan persamaan terakhir ini benar jika dan hanya jika . Jadi diminimalkan dengan mengambil .β X T ( y - X β ) = 0 X T X β = X T y E β = ( X T X ) - 1 X T y(ββ^)TXT(yXβ^)=0βXT(yXβ^)=0XTXβ^=XTyEβ^=(XTX)1XTy


Meskipun ini mungkin tampak seperti "trik" untuk menghindari kalkulus, sebenarnya memiliki aplikasi yang lebih luas dan ada beberapa geometri yang menarik.

Salah satu contoh di mana teknik ini membuat derivasi jauh lebih sederhana daripada pendekatan kalkulus matriks-vektor adalah ketika kita menggeneralisasi ke kasus matriks. Biarkan , dan . Misalkan kita ingin meminimalkan di seluruh matriks parameter . Di sini adalah matriks kovarians.YRn×pXRn×qBRq×p

E=tr((YXB)Σ1(YXB)T)
BΣ

Pendekatan yang sepenuhnya analog dengan hal di atas dengan cepat menetapkan bahwa minimum diperoleh dengan mengambil Yaitu, dalam pengaturan regresi di mana respons adalah vektor dengan kovarians dan pengamatan independen, maka estimasi OLS diperoleh dengan melakukan regresi linier terpisah pada komponen respons.E

B^=(XTX)1XTY.
Σp

Untungnya aturan forum memperbolehkan menambahkan +1 ke setiap jawaban. Terima kasih untuk pendidikannya, teman-teman!
DWin

@Din, apakah Anda bermaksud memposting ini di bawah komentar untuk pertanyaan?
kardinal

Saya kira saya bisa. Saya telah secara berurutan melewati pertanyaan dan kemudian semua jawaban (setelah pemrosesan MathML berhenti menyentak) dan menemukan masing-masing jawaban informatif. Saya baru saja menjatuhkan komentar saya pada Anda karena di situlah saya berhenti membaca.
DWin

1
@Din, ya, renderingnya agak funky. Saya pikir Anda mungkin telah mengarahkan komentar untuk posting lain karena yang ini tidak memiliki suara (naik atau turun) sehingga komentar tersebut tampaknya tidak pada tempatnya. Bersulang.
kardinal

1
@ cardinal +1, trik yang bermanfaat. Pertanyaan ini ternyata menjadi referensi yang cukup bagus.
mpiktas

6

Salah satu cara yang dapat membantu Anda memahami adalah dengan tidak menggunakan aljabar matriks, dan membedakan dengan masing-masing sehubungan dengan masing-masing komponen, dan kemudian "menyimpan" hasilnya dalam vektor kolom. Jadi kita punya:

βki=1N(Yij=1pXijβj)2=0

Sekarang Anda memiliki dari persamaan ini, satu untuk setiap beta. Ini adalah aplikasi sederhana dari aturan rantai:p

i=1N2(Yij=1pXijβj)1(βk[Yij=1pXijβj])=0
2i=1NXik(Yij=1pXijβj)=0

Sekarang kita dapat menulis kembali jumlah di dalam braket sebagai Jadi Anda mendapatkan:j=1pXijβj=xiTβ

i=1NXikYii=1NXikxiTβ=0

Sekarang kita memiliki dari persamaan ini, dan kita akan "menumpuknya" dalam vektor kolom. Perhatikan bagaimana adalah satu-satunya istilah yang bergantung pada , jadi kita dapat menumpuknya ke vektor dan kita mendapatkan:pXikkxi

i=1NxiYi=i=1NxixiTβ

Sekarang kita dapat mengambil beta di luar jumlah (tetapi harus tetap pada RHS jumlah), dan kemudian mengambil invervse:

(i=1NxixiT)1i=1NxiYi=β
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.