Saya berjuang untuk memahami derivasi dari kesalahan prediksi yang diharapkan per bawah (ESL), terutama pada derivasi dari 2.11 dan 2.12 (mengkondisikan, langkah menuju titik minimum bijaksana). Setiap petunjuk atau tautan sangat dihargai.
Di bawah ini saya melaporkan kutipan dari ESL hal. 18. Dua persamaan pertama adalah, secara berurutan, persamaan 2.11 dan 2.12.
Misalkan menunjukkan vektor input acak bernilai nyata, dan variabel output acak bernilai nyata, dengan distribusi gabungan . Kami mencari fungsi untuk memprediksi nilai yang diberikan dari input . Teori ini membutuhkan fungsi kerugian untuk menghukum kesalahan dalam prediksi, dan sejauh ini yang paling umum dan nyaman adalah hilangnya kesalahan kuadrat : . Ini membawa kita ke kriteria untuk memilih , L ( Y , f ( X ) ) L ( Y , f ( X ) ) = ( Y - f ( X ) ) 2 f
kesalahan prediksi yang diharapkan (kuadrat). Dengan mengkondisikan , kita dapat menulis sebagai EPE
dan kami melihat bahwa itu sudah cukup untuk meminimalkan EPE point-wise:
Solusinya adalah
harapan bersyarat, juga dikenal sebagai fungsi regresi .