Bukti bahwa koefisien dalam model OLS mengikuti distribusi-t dengan derajat kebebasan (nk)


29

Latar Belakang

Misalkan kita memiliki model Ordinary Least Squares di mana kita memiliki koefisien dalam model regresi kita, k

y=Xβ+ϵ

di mana adalah vektor dari koefisien, adalah matriks desain yang didefinisikan olehβ(k×1)X

X=(1x11x12x1(k1)1x211xn1xn(k1))
dan kesalahannya adalah IID normal,
ϵN(0,σ2I).

Kami meminimalkan jumlah kesalahan kuadrat dengan menetapkan taksiran kami untuk β menjadi

β^=(XTX)1XTy.

Estimator yang tidak bias dari σ2 adalah

s2=yy^2np
mana y^Xβ^ ( ref ).

Kovarians β^ diberikan oleh

Cov(β^)=σ2C
mana C(XTX)1 ( ref ).

Pertanyaan

Bagaimana saya bisa membuktikannya untuk , mana adalah distribusi t dengan derajat kebebasan , dan kesalahan standar diperkirakan oleh . β i-βiβ^itn-k(n-k) β is β i=s

β^iβisβ^itnk
tnk(nk)β^isβ^i=scii

Usaha saya

Saya tahu bahwa untuk variabel acak yang diambil dari , Anda dapat menunjukkan bahwa dengan menulis ulang LHS sebagai dan menyadari bahwa numertor adalah distribusi normal standar, dan penyebutnya adalah akar kuadrat dari distribusi Chi-square dengan df = (n-1) dan dibagi dengan (n- 1) ( ref ). Dan karena itu mengikuti distribusi-t dengan df = (n-1) ( ref ).x N ( μ , σ 2 ) ˉ x - μnxN(μ,σ2)( ˉ x -μ

x¯μs/ntn1
(x¯μσ/n)s2/σ2

Saya tidak dapat memperpanjang bukti ini untuk pertanyaan saya ...

Ada ide? Saya mengetahui pertanyaan ini , tetapi mereka tidak secara eksplisit membuktikannya, mereka hanya memberikan aturan praktis, dengan mengatakan "setiap prediktor memberi Anda tingkat kebebasan".


Karena adalah kombinasi linear dari variabel Normal bersama, ia memiliki distribusi Normal. Oleh karena itu semua Anda perlu lakukan adalah (1) menetapkan bahwa ; (2) menunjukkan bahwa adalah penaksir yang tidak bias dari ; dan (3) menunjukkan derajat kebebasan dalam adalah . Yang terakhir telah terbukti di situs ini di beberapa tempat, seperti stats.stackexchange.com/a/16931 . Saya menduga Anda sudah tahu caranya (1) dan (2). E( β i)=βis 2 β i Var( β i)s β in-kβ^iE(β^i)=βisβ^i2Var(β^i)sβ^ink
whuber

Jawaban:


32

Karena kita tahu bahwa dan dengan demikian kita tahu bahwa untuk setiap komponen dari , mana adalah elemen diagonal dari . Dengan demikian, kita tahu bahwa β -β~N(0,σ2(XTX)-1)k β β k-βk~N(0,σ2Skk)Skkkth(XTX

β^=(XTX)1XTY=(XTX)1XT(Xβ+ε)=β+(XTX)1XTε
β^βN(0,σ2(XTX)1)
kβ^
β^kβkN(0,σ2Skk)
Skkkth z k = β k - β k(XTX)1
zk=β^kβkσ2SkkN(0,1).

Perhatikan pernyataan Teorema untuk Distribusi Bentuk Kuadrat Idempoten dalam Vektor Normal Standar (Teorema B.8 di Greene):

Jika dan adalah simetris dan idempoten, maka didistribusikan di mana adalah peringkat .A x T A x χ 2 ν ν AxN(0,I)AxTAxχν2νA

Misalkan menunjukkan vektor residual regresi dan biarkan yang merupakan matriks pembuat residu (yaitu ) . Sangat mudah untuk memverifikasi bahwa simetris dan idempoten . M=In-X(XTX)-1XT,My= ε Mε^

M=InX(XTX)1XT,
My=ε^M

Mari menjadi estimator untuk .

s2=ε^Tε^np
σ2

Kita kemudian perlu melakukan beberapa aljabar linier. Perhatikan tiga sifat aljabar linier ini:

  • Peringkat dari matriks idempoten adalah jejaknya.
  • Tr(A1+A2)=Tr(A1)+Tr(A2)
  • Tr(A1A2)=Tr(A2A1) jika adalah dan adalah ( properti ini sangat penting agar pekerjaan di bawah ini berfungsi )A1n1×n2SEBUAH2n2×n1

Jadi

rank(M)=Tr(M)=Tr(InX(XTX)1XT)=Tr(In)Tr(X(XTX)1XT))=Tr(In)Tr((XTX)1XTX))=Tr(In)Tr(Ip)=np

Kemudian

V=(np)s2σ2=ε^Tε^σ2=(εσ)TM(εσ).

Menerapkan Teorema untuk Distribusi Bentuk Kuadrat Idempoten dalam Vektor Normal Standar (dinyatakan di atas), kita tahu bahwa .Vχnp2

Karena Anda berasumsi bahwa terdistribusi secara normal, maka tidak tergantung dari , dan karena adalah fungsi dari , maka juga independen dari . Dengan demikian, dan tidak tergantung satu sama lain.εβ^ε^s2ε^s2β^zkV

Kemudian, adalah rasio dari distribusi Normal standar dengan akar kuadrat dari distribusi Chi-squared dengan derajat kebebasan yang sama (yaitu ), yang merupakan karakterisasi dari distribusi . Oleh karena itu, statistik memiliki distribusi dengan derajat kebebasan .

tk=zkV/(np)
npttktnp

Kemudian dapat dimanipulasi secara aljabar menjadi bentuk yang lebih akrab.

tk=β^kβkσ2Skk(np)s2σ2/(np)=β^kβkSkks2=β^kβks2Skk=β^kβkse(β^k)

Juga pertanyaan sampingan: untuk itu Theorem for the Distribution of an Idempotent Quadratic Form in a Standard Normal Vector, bukankah kita juga membutuhkan agar simetris? Sayangnya, saya tidak memiliki Greene, jadi saya tidak bisa melihat buktinya walaupun saya melihat bahwa Wikipedia memiliki bentuk yang sama dengan Anda . Namun, contoh penghitung tampaknya menjadi matriks idempoten yang mengarah ke yang bukan Chi-Kuadrat karena dapat mengambil nilai negatif. ..AA=(1100)x12+x1x2
Garrett

1
AM

1
AA(x1,x2)x12+x1x2A=(11/21/20)idempoten.
whuber

1
ϵN(0,σ2)β^ϵ^

1
β^ε^β^=β+(XX)-1Xεε^=MεCov(β^,ε^)=0p×n
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.