Menunjukkan bahwa estimator OLS adalah ekuivalen skala?


11

Saya tidak memiliki definisi formal tentang kesetaraan skala, tetapi inilah yang dikatakan Pengantar Pembelajaran Statistik tentang hal ini pada hal. 217:

Koefisien kuadrat terkecil standar ... adalah skala ekuivalen : mengalikan dengan konstanta hanya mengarah ke penskalaan estimasi koefisien kuadrat terkecil dengan faktor .Xjc1/c

Untuk mempermudah, mari kita asumsikan model linear umum y=Xβ+ϵ , di mana yRN , X adalah matriks N×(p+1) (di mana p+1<N ) dengan semua entri dalam R , βRp+1 , dan ϵ adalah vektor dimensi- N dari variabel acak bernilai riil dengan E[ϵ]=0N×1 .

Dari estimasi OLS, kita tahu bahwa jika X memiliki peringkat (kolom) penuh,

β^X=(XTX)1XTy.
Misalkan kita mengalikan kolom X , katakan xk untuk beberapa k{1,2,,p+1} , dengan konstanta c0 . Ini akan setara dengan matriks
X[111c11]S=[x1x2cxkxp+1]X~
mana semua entri lain dari matriks S atas adalah 0 , dan c berada di entri k dari diagonal S . Kemudian,X~X~karena matriks desain baru adalah
β^X~=(X~TX~)1X~Ty.
Setelah beberapa pekerjaan, orang dapat menunjukkan bahwa
X~TX~=[x1Tx1x1Tx2cx1Txkx1Txp+1x2Tx1x2Tx2cx2Txkx2Txp+1cxkTx1cxkTx2c2xkTxkcxkTxp+1xp+1Tx1xp+1Tx2cxp+1Txp+1xp+1Txp+1]
\ cdots & \ mathbf {x} _ {p + 1} ^ {T} \ mathbf {x} _ {p + 1} \\ \ end {bmatrix} dan
X~Ty=[x1Tyx2TycxkTyxp+1Ty]
Bagaimana saya pergi dari sini untuk menunjukkan klaim yang dikutip di atas (yaitu, bahwa β^X~=1cβ^X )? Tidak jelas bagi saya bagaimana cara menghitung (X~TX~)1 .

Saya pikir tidak benar, itu tidak memiliki pengali dalam seluruh baris. cX~TX~c
Firebug

1
Juga, ingatlah klaimnya adalah , tidak setiap . ββ^k,new=1cβ^k,oldβ
Firebug

@ Firebug Yap, saya baru tahu itu. Saya memposting jawaban.
Klarinetis

2
Anda dapat mengganti semua aljabar ini dengan analisis unit yang lebih sederhana, karena mengalikan dengan hanya mengubah unit pengukurannya, dan oleh karena itu perubahan terkait dalam unit yang terkait dengan koefisien adalah membaginya dengan . Itu tidak membuktikan harus dibagi dengan , sayangnya. Namun, rantai pemikiran ini mungkin mengingatkan kita bahwa regresi berganda dapat dilakukan oleh suksesi regresi terhadap satu regresi pada suatu waktu, di mana jelas bahwa dibagi dengan , sehingga buktinya lengkap. Xjβ j c β j c β jcβjcβ^jcβ^jc
whuber

@whuber, sementara intuisi untuk hasilnya jelas, sepertinya harus ada sedikit aljabar dalam memberikan bukti. Bagaimanapun, faktor penskalaan perlu dibalik. c
user795305

Jawaban:


11

Karena pernyataan dalam kutipan adalah sekumpulan pernyataan tentang mengubah ukuran kolom , Anda bisa membuktikannya sekaligus. Memang, tidak perlu lagi bekerja untuk membuktikan generalisasi pernyataan:X

Ketika dikalikan kanan dengan matriks dapat dibalik , maka estimasi koefisien baru sama dengan dikalikan kiri dengan .A β AXAβ^A A-1β^A1

Satu-satunya fakta aljabar yang Anda butuhkan adalah (mudah dibuktikan, terkenal) bahwa untuk setiap matriks dan untuk matriks dan dapat dibalik . (Versi yang lebih halus dari yang terakhir diperlukan ketika bekerja dengan invers yang digeneralisasi: untuk dan dapat dibalik dan apa pun , . ) A B ( A B ) - 1 = B - 1 A - 1 A B A B X ( A X B ) - = B -(AB)=BAAB(AB)1=B1A1ABABX(AXB)=B1XA1


Bukti berdasarkan aljabar :

β^A=((XA)((XA))(XA)y=A1(XX)(A)1Ay=A1β^,

QED. (Agar bukti ini sepenuhnya umum, superscript merujuk ke invers yang digeneralisasi.)


Bukti berdasarkan geometri :

Basis yang diberikan dan dari dan , masing-masing, mewakili transformasi linear dari ke . Multiplikasi kanan oleh dapat dianggap sebagai membiarkan transformasi ini diperbaiki tetapi mengubah menjadi (yaitu, ke kolom ). Di bawah bahwa perubahan dasar, representasi setiap vektor harus mengubah via kiri perkalian dengan ,E n R n R p X R p R nEpEnRnRpXRpRnA E p A E p A ßR p A - 1XAEpAEpAβ^RpA1QED .

(Bukti ini berfungsi, tidak dimodifikasi, bahkan ketika tidak dapat dibalik.)XX


Kutipan secara khusus merujuk pada kasus matriks diagonal dengan untuk dan .A i i = 1 i jAAii=1ijAjj=c


Koneksi dengan kuadrat terkecil

Tujuannya di sini adalah untuk menggunakan prinsip pertama untuk mendapatkan hasil, dengan prinsip adalah bahwa dari kuadrat terkecil: memperkirakan koefisien yang meminimalkan jumlah kuadrat residu.

Sekali lagi, membuktikan generalisasi (besar) terbukti tidak lebih sulit dan agak terbuka. Misalkan adalah setiap peta (linear atau tidak) dari ruang vektor nyata dan anggap adalah fungsi bernilai nyata pada . Biarkan menjadi set (mungkin kosong) dari poin yang diminimalkan. Q W n U V p

ϕ:VpWn
QWnUVpQ ( φ ( v ) )vQ(ϕ(v))

Hasil: , yang ditentukan semata-mata oleh dan , tidak tergantung pada pilihan basis digunakan untuk mewakili vektor dalam .Q ϕ EUQϕV hlmEpVp

Bukti: QED.

Tidak ada yang bisa dibuktikan!

Penerapan hasilnya: Misalkan adalah bentuk kuadrat semidefinit positif pada , misalkan , dan anggap adalah peta linear yang diwakili oleh ketika basis dan dipilih. Tentukan . Pilih basis dan anggap adalah representasi dari beberapa dalam basis itu. Ini adalah kuadrat terkecil : meminimalkan jarak kuadrat . KarenaR n y R n ϕ X V p = R p W n = R n Q ( x ) = F ( y , x ) R pFRnyRnϕXVp=RpWn=RnQ(x)=F(y,x)Rp vUx=X β F(y,x)XRpXA β A-1β^vUx=Xβ^F(y,x)Xadalah peta linier, mengubah dasar sesuai dengan mengalikan dengan beberapa matriks dapat dibalik . Itu akan melipatgandakan oleh , QED .RpXAβ^A1


6

Tentukan estimator kuadrat terkecil , di mana matriks desain adalah peringkat penuh. Asumsikan bahwa scaling matrix tidak bisa dibalik.β^=argminβRpyXβ22 S R p × pXRn×pSRp×p

Tentukan penaksir skala baru ini . Ini berarti bahwa untuk semua . Mendefinisikan , kita dapat menulis ulang ketidaksetaraan yang ditampilkan di atas sebagai untuk semua . Oleh karena itu , dan ini mengikuti estimator kuadrat terkecil Karena ketidakmungkinan pembalikan skala matriksy-XS ˜ α 2 2 <y-XSα 2 2 α R py-Xβ 2 2 β = ~ β = S ~ α .α~=argminαRpyXSα22

yXSα~22<yXSα22
˜ β =S ˜ αy-X ˜ β 2 2 <y-αα~β~=Sα~ β ~ β ~ β = arg min β ß ß k t h 1
yXβ~22<yXβ22
ββ~β~=argminβRpyXβ22
β^=β~=Sα~.
~ α = S - 1S, karena itu . Dalam kasus kami, ini hanya berbeda dari dengan entri yang diskalakan oleh .α~=S1β^β^kth1c

1
Saya tidak terbiasa karena saya seharusnya bekerja dengan dan fungsi yang serupa - dapatkah Anda menjelaskan transisi dari baris persamaan kedua ke ketiga? arg min
Klarinetis

Saya telah menulisnya sedikit berbeda, yang seharusnya membuat langkah lebih jelas.
user795305

Ini sangat pintar. (+1)
Klarinetis

4

Saya menemukan ini setelah memposting pertanyaan. Namun, jika pekerjaan saya benar, saya salah menafsirkan klaim tersebut. The skala hanya terjadi pada salah satu komponen dari sesuai dengan kolom dari yang dikalikan dengan . βXc1cβXc

Perhatikan bahwa , dalam notasi di atas, adalah matriks diagonal, simetris dan memiliki invers (karena diagonal) Perhatikan bahwa adalah matriks . Anggap saja ( hlmS(p+1)×(p+1)

S1=[1111c11].
(X~TX~)1(p+1)×(p+1)
(XTX)1=[z1z2zkzp+1].
(X~TX~)1=[(XS)TXS]1=(STXTXS)1=(SXTXS)1=S1(XTX)1S1.
Karenanya, dan mengalikannya dengan memiliki efek yang mirip dengan apa yang dikalikan dengan lakukan - tetap sama, dikalikan dengan
S1(XTX)1=[z1z21czkzp+1]
S1XS1czk1c : Karenanya,
S1(XTX)1S1=[z1z21c2zkzp+1].
β^X~=S1(XTX)1S1(XS)Ty=[z1z21c2zkzp+1][x1Tyx2TycxkTyxp+1Ty]=[z1x1Tyz2x2Ty1czkxkTyzp+1xp+1Ty]
seperti yang diinginkan.

Ada salah ketik di . Anda perlu mengubah posisi . S1(XTX)1S1(XS)y(XS)
JohnK

3

Bukti Paling Sepele Yang Pernah Ada

Anda mulai dengan persamaan linear Anda: Sekarang Anda ingin mengubah skala regressor Anda, mungkin mengubah dari sistem metrik ke Imperial, Anda tahu kilogram ke pound, meter ke yard dll. Jadi, Anda datang dengan matriks konversi di mana setiap adalah koefisien konversi untuk variabel (kolom) dalam desain matriks .

Y=Xβ+ε
S=diag(s1,s1,,sn)siiX

Mari kita menulis ulang persamaannya:

Y=(XS)(S1β)+ε

Sekarang sudah sangat jelas bahwa penskalaan adalah properti dari linearitas persamaan Anda, bukan metode estimasi estimasi koefisien OLS. Terlepas dari metode estimasi dengan persamaan linear Anda memilikinya bahwa ketika regresor diskalakan sebagai koefisien baru Anda harus diskalakan sebagaiXSS1β

Bukti oleh Aljabar untuk OLS Saja

Penskalaannya adalah ini: mana faktor skala dari setiap variabel (kolom), dan adalah versi diskalakan . Mari kita sebut matriks skala diagonal . Estimator OLS Anda adalah Mari kita tancapkan matriks skala bukan dan menggunakan beberapa aljabar matriks : Jadi, Anda melihat bagaimana koefisien baru hanyalah koefisien yang diperkecil, seperti yang diharapkan.

Z=Xdiag(s1,s2,...,sn)
siZXSdiag(s1,s2,...,sn)
β^=(XTX)1XTY
ZX
(ZTZ)1ZTY=(STXTXS)1STXTY=S1(XTX)1S1SXTY=S1(XTX)1XTY=S1β^

2
Saya suka pendekatan Anda, tetapi saya tidak yakin dengan "bukti paling sepele yang pernah ada." Anda telah secara implisit berasumsi, dan masih perlu menunjukkan, bahwa model yang ditulis ulang harus memiliki kecocokan yang sama seperti aslinya. Untuk lebih jelasnya: jika kita melihat prosedur pemasangan sebagai fungsi , di mana adalah himpunan semua data yang mungkin (yang bisa kita tulis sebagai pasangan berurutan ) dan adalah himpunan semua perkiraan koefisien yang mungkin, maka Anda perlu menunjukkan bahwa untuk semua dibalik , semua , dan semua . (Ini tidak selalu benar!)δ:MRpM(X,Y)Rpδ(X,Y)=S1δ(XS,Y)SXY
Whuber

@whuber, sebenarnya itu cara lain: prosedur pemasangan yang masuk akal harus memenuhi kondisi ini, jika tidak perubahan sederhana dari satuan ukuran akan menghasilkan perkiraan / perkiraan yang berbeda. saya akan memperbarui jawaban saya, akan memikirkannya sedikit
Aksakal

Saya setuju - tetapi saya bisa membayangkan pengecualian dalam kasus di mana bukan peringkat penuh. Itulah yang menyarankan kepada saya bahwa situasinya tidak sepele seperti kelihatannya. X
whuber

3
kekaisaran , bukan kerajaan ...: D (Jawaban yang bagus, +1)
usεr11852

@ usεr11852, saya belajar sesuatu hari ini :)
Aksakal

2

Cara mudah untuk mendapatkan hasil ini adalah dengan mengingat bahwa adalah proyeksi pada ruang kolom adalah vektor koefisien ketika diekspresikan sebagai linear kombinasi kolom . Jika beberapa kolom diskalakan oleh faktor , jelas bahwa koefisien yang sesuai dalam kombinasi linier harus diskalakan oleh .y^yX. β^y^Xc1/c

Biarkan menjadi nilai dan menjadi nilai dari solusi OLS ketika satu kolom diskalakan olehβ a i c . b 1 x 1 + . . . + b i x i + . . . + b m x m = a 1 x 1 + . . . a i ( c x i ) + . . . + abiβ^aic.

b1x1+...+bixi+...+bmxm=a1x1+...ai(cxi)+...+anxn

menyiratkan bahwa mana dan , dengan asumsi bahwa kolom adalah bebas linear. j i b i = a i c Xbj=ajjibi=aicX

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.