Mari kita mulai dengan intuisi.
Tidak ada yang salah dengan menggunakan untuk memprediksi . Bahkan, tidak menggunakannya berarti kita membuang informasi berharga. Namun, semakin kita bergantung pada informasi yang terkandung dalam untuk menghasilkan prediksi kita, semakin optimis penaksir kita.y i y iyiy^sayaysaya
Pada satu ekstrim, jika hanyalah , Anda akan memiliki prediksi sampel yang sempurna ( ), tetapi kami cukup yakin bahwa prediksi out-of-sample akan menjadi buruk. Dalam hal ini (mudah untuk memeriksa sendiri), derajat kebebasan akan menjadi .yiR2=1df( y )=ny^sayaysayaR2= 1df( y^) = n
Di sisi lain, jika Anda menggunakan mean sampel : untuk semua , maka derajat kebebasan Anda hanya 1.y i = ^ y i = ˉ y iyysaya= ysaya^= y¯saya
Lihat selebaran yang bagus ini oleh Ryan Tibshirani untuk detail lebih lanjut tentang intuisi ini
Sekarang bukti yang mirip dengan jawaban yang lain, tetapi dengan sedikit penjelasan
Ingat bahwa, menurut definisi, optimisme rata-rata adalah:
ω = Ey( Er ri n- e r r¯¯¯¯¯¯¯)
= Ey( 1N∑i = 1NEY0[ L ( Y0saya, f^( xsaya)|T) ] - 1N∑i = 1NL ( ysaya, f^( xsaya) ) )
Sekarang gunakan fungsi kerugian kuadratik dan perluas istilah kuadrat:
= Ey( 1N∑i = 1NEY0[ ( Y0saya- y^saya)2] - 1N∑i = 1N( ysaya- y^saya)2) )
= 1N∑i = 1N( EyEY0[ ( Y0saya)2] + EyEY0[ y^2saya] - 2 EyEY0[ Y0sayay^saya] - Ey[ y2saya] - Ey[ y^2saya] + 2 E[ ysayay^saya] )
gunakan untuk menggantikan:EyEY0[ ( Y0saya)2] = Ey[ y2saya]
= 1N∑i = 1N( Ey[ y2saya] + Ey[ ysaya^2] - 2 Ey[ ysaya] Ey[ y^saya] - Ey[ y2saya] - Ey[ y^2saya] + 2 E[ ysayay^saya] )
= 2N∑i = 1N( E[ ysayay^saya] - Ey[ ysaya] Ey[ y^saya] )
Untuk menyelesaikan, perhatikan bahwa , yang menghasilkan:Co v ( x , w ) = E[ x w ] - E[ x ] E[ w ]
= 2N∑i = 1NCo v ( ysaya, y^saya)