Intuisi tentang tanda-tanda "plus" yang terkait dengan varians (dari fakta bahwa bahkan ketika kita menghitung varians dari perbedaan variabel acak independen, kami menambahkan variansnya) benar tetapi tidak lengkap secara fatal: jika variabel acak yang terlibat tidak independen , maka kovarian juga terlibat - dan kovarian mungkin negatif. Ada ungkapan yang hampir seperti ungkapan dalam pertanyaan yang dianggap "harus" oleh OP (dan saya), dan itu adalah varian dari kesalahan prediksi , yang menyatakannya , di mana :y 0 = β 0 + β 1 x 0 + u 0e0=y0−y^0y0=β0+β1x0+u0
Var(e0)=σ2⋅(1+1n+(x0−x¯)2Sxx)
Perbedaan penting antara varians dari kesalahan prediksi dan varians dari estimasi kesalahan (yaitu dari sisa), adalah bahwa istilah kesalahan dari pengamatan diprediksi tidak berkorelasi dengan estimator , karena nilai itu tidak digunakan dalam membangun estimator dan menghitung estimasi, menjadi nilai out-of-sample.y0
Aljabar untuk keduanya berlangsung dengan cara yang persis sama hingga titik (menggunakan bukan ), tetapi kemudian menyimpang. Secara khusus:i0i
Dalam regresi linier sederhana , , varian dari estimator masih Var ( u i ) = σ 2 β = ( β 0 , ß 1 ) 'yi=β0+β1xi+uiVar(ui)=σ2β^=(β^0,β^1)′
Var(β^)=σ2(X′X)−1
Kita punya
X′X = [ n∑ xsaya∑ xsaya∑ x2saya]
dan sebagainya
( X′X )- 1= [ ∑ x2saya- ∑ xsaya- ∑ xsayan]⋅[n∑x2i−(∑xi)2]- 1
Kita punya
[ n ∑ x2saya- ( ∑ xsaya)2] = [ n ∑ x2saya- n2x¯2] =n [ ∑ x2saya- n x¯2]= n β ( x2saya−x¯2)≡nSxx
Begitu
(X′X)−1=[(1/n)∑x2i−x¯−x¯1]⋅(1/Sxx)
yang berarti itu
Var(β^0)=σ2(1n∑x2i)⋅ (1/Sxx)=σ2nSxx+nx¯2Sxx=σ2(1n+x¯2Sxx)
Var(β^1)=σ2(1/Sxx)
Cov ( β^0, β^1) = - σ2( x¯/ Sx x)
The residu -th didefinisikan sebagaisaya
kamu^saya= ysaya- y^saya= ( β0- β^0) + ( β1- β^1) xsaya+ usaya
Koefisien yang sebenarnya diperlakukan sebagai konstanta, regressor adalah tetap (atau tergantung pada itu), dan memiliki nol kovarians dengan istilah kesalahan, tetapi para estimator berkorelasi dengan istilah kesalahan, karena estimator mengandung variabel dependen, dan variabel dependen berisi istilah kesalahan. Jadi kita punya
Var ( kamu^saya) = [ Var ( usaya) + Var ( β^0) + x2sayaVar ( β^1) + 2 xsayaCov ( β^0, β^1) ]+2Cov([(β0−β^0)+(β1−β^1)xi],ui)
= [ σ2+ σ2( 1n+ x¯2Sx x) + x2sayaσ2( 1 / Sx x) + 2 Cov ( [ ( β0- β^0) + ( β1- β^1) xsaya] , kamusaya)
Kemasi sedikit untuk mendapatkan
Var ( kamu^saya) = [ σ2⋅ ( 1 + 1n+ ( xsaya- x¯)2Sx x) ] +2Cov([( β0- β^0) + ( β1- β^1) xsaya] , kamusaya)
Istilah dalam tanda kurung besar memiliki struktur yang persis sama dengan varians dari kesalahan prediksi, dengan satu-satunya perubahan adalah bahwa alih-alih kita akan memiliki (dan varians akan menjadi dari dan bukan dari ). Istilah kovarians terakhir adalah nol untuk kesalahan prediksi karena dan karenanya adalah tidak termasuk dalam estimator, tetapi tidak nol untuk kesalahan estimasi karena dan karenanya merupakan bagian dari sampel dan sehingga termasuk dalam penduga Kita punyax 0 e 0 u i y 0 u 0 y i u ixsayax0e0kamu^sayay0kamu0ysayakamusaya
2 Cov ( [ ( β0- β^0) + ( β1- β^1) xsaya] , kamusaya) = 2 E( [ ( β0- β^0) + ( β1- β^1) xsaya] usaya)
=−2E(β^0ui)−2xiE(β^1ui)=−2E([y¯−β^1x¯]ui)−2xiE(β^1ui)
substitusi terakhir dari cara dihitung. Melanjutkan,β^0
...=−2E(y¯ui)−2(xi−x¯)E(β^1ui)=−2σ2n−2(xi−x¯)E[∑(xi−x¯)(yi−y¯)Sxxui]
=−2σ2n−2(xi−x¯)Sxx[∑(xi−x¯)E(yiui−y¯ui)]
=−2σ2n−2(xi−x¯)Sxx[−σ2n∑j≠i(xj−x¯)+(xi−x¯)σ2(1−1n)]
=−2σ2n−2(xi−x¯)Sxx[−σ2n∑(xi−x¯)+(xi−x¯)σ2]
=−2σ2n−2(xi−x¯)Sxx[0+(xi−x¯)σ2]=−2σ2n−2σ2(xi−x¯)2Sxx
Memasukkan ini ke dalam ekspresi untuk varian residual, kami dapatkan
Var(u^i)=σ2⋅(1−1n−(xi−x¯)2Sxx)
Jadi topi ke teks OP menggunakan.
(Saya telah melewatkan beberapa manipulasi aljabar, tidak heran aljabar OLS semakin jarang diajarkan saat ini ...)
BEBERAPA INTUISI
Jadi tampaknya apa yang berfungsi "terhadap" kami (varian lebih besar) saat memprediksi, berfungsi "untuk kami" (varian lebih rendah) saat memperkirakan. Ini adalah titik awal yang baik bagi seseorang untuk merenungkan mengapa kecocokan yang sangat baik mungkin merupakan pertanda buruk untuk kemampuan prediksi model (betapapun kontra-intuitif ini mungkin terdengar ...).
Fakta bahwa kami memperkirakan nilai yang diharapkan dari regressor, menurunkan varians sebesar . Mengapa? karena dengan memperkirakan , kami "menutup mata" pada beberapa variabilitas kesalahan yang ada dalam sampel, karena pada dasarnya kami memperkirakan nilai yang diharapkan. Selain itu, semakin besar penyimpangan pengamatan regressor dari sampel rata-rata regressor,1/nvarians dari residu yang terkait dengan pengamatan ini akan menjadi ... semakin pengamatan menyimpang, semakin sedikit menyimpang residu ... Ini adalah variabilitas dari regressor yang bekerja untuk kita, dengan "mengambil tempat" dari kesalahan yang tidak diketahui- variabilitas.
Tapi itu bagus untuk estimasi . Untuk prediksi , hal-hal yang sama berbalik melawan kita: sekarang, dengan tidak memperhitungkan, betapapun tidak sempurna, variabilitas dalam (karena kita ingin memprediksikannya), penaksir tidak sempurna kita yang diperoleh dari sampel menunjukkan kelemahan mereka: kami memperkirakan sampel berarti, kita tidak tahu nilai yang diharapkan benar-varians meningkat. Kami memiliki yang jauh dari mean sampel yang dihitung dari pengamatan lain -juga buruk, varians kesalahan prediksi kami mendapat dorongan lain, karena prediksi akan cenderung tersesat ... lebih bahasa ilmiah "prediktor optimal dalam arti mengurangi varians kesalahan prediksi, mewakili ay0x0 y^0penyusutan terhadap rata-rata variabel berdasarkan prediksi ". Kami tidak mencoba untuk mereplikasi variabilitas variabel dependen -kami hanya mencoba untuk tetap" dekat dengan rata-rata ".