Beberapa langkah lagi dari dekomposisi Bias - Variance
Memang, derivasi lengkap jarang diberikan dalam buku teks karena melibatkan banyak aljabar yang tidak menarik. Berikut adalah derivasi yang lebih lengkap menggunakan notasi dari buku "Elemen Pembelajaran Statistik" di halaman 223
Jika kita mengasumsikan bahwa dan dan maka kita dapat memperoleh ekspresi untuk kesalahan prediksi yang diharapkan dari kecocokan regresi pada input menggunakan squared error lossY=f(X)+ϵE[ϵ]=0Var(ϵ)=σ2ϵf ( X ) X = x 0f^(X)X=x0
Err(x0)=E[(Y−f^(x0))2|X=x0]
Untuk kesederhanaan notasi, biarkan , dan ingat bahwa danf^(x0)=f^f(x0)=fE[f]=fE[Y]=f
E[(Y−f^)2]=E[(Y−f+f−f^)2]=E[(y−f)2]+E[(f−f^)2]+2E[(f−f^)(y−f)]=E[(f+ϵ−f)2]+E[(f−f^)2]+2E[fY−f2−f^Y+f^f]=E[ϵ2]+E[(f−f^)2]+2(f2−f2−fE[f^]+fE[f^])=σ2ϵ+E[(f−f^)2]+0
Untuk istilah kita dapat menggunakan trik yang sama seperti di atas, menambah dan mengurangi untuk mendapatkanE[(f−f^)2]E[ f^]
E[ ( f- f^)2]= E[ ( f+ E[ f^] - E[ f^] - f^)2]= E[ f- E[ f^] ]2+ E[ f^- E[ f^] ]2= [ f- E[ f^] ]2+ E[ f^- E[ f^] ]2= B i a s2[ f^] + Va r [ f^]
Menyatukannya
E[ ( Y- f^)2] = σ2ϵ+ B i a s2[ f^] + Va r [ f^]
Beberapa komentar tentang mengapaE[ f^Y] = fE[ f^]
Diambil dari Alecos Papadopoulos di sini
Ingat bahwa adalah prediktor yang kami buat berdasarkan pada titik data sehingga kita dapat menulis untuk mengingatnya.f^m{ ( x( 1 ), y( 1 )) , . . . , ( x( m ), y( m )) }f^= f^m
Di sisi lain adalah prediksi yang kami buat pada titik data baru dengan menggunakan model yang dibangun pada titik data atas. Jadi Mean Squared Error dapat ditulis sebagaiY( x( m + 1 ), y( m + 1 ))m
E[ f^m( x( m + 1 )) - y( m + 1 )]2
Memperluas persamaan dari bagian sebelumnya
E[ f^mY] = E[ f^m( f+ ϵ ) ] = E[ f^mf+ f^mϵ ] = E[ f^mf] + E[ f^mϵ ]
Bagian terakhir dari persamaan dapat dilihat sebagai
E[ f^m( x( m + 1 )) ⋅ ϵ( m + 1 )] = 0
Karena kami membuat asumsi berikut tentang titik :x( m + 1 )
- Itu tidak digunakan ketika membangunf^m
- Ini tidak tergantung pada semua pengamatan lain{ ( x( 1 ), y( 1 )) , . . . , ( x( m ), y( m )) }
- Tidak tergantung padaϵ( m + 1 )
Sumber lain dengan derivasi penuh