Saya mengusulkan kesalahan yang dapat direduksi . Ini juga merupakan terminologi yang diadopsi dalam paragraf 2.1.1 dari Gareth, Witten, Hastie & Tibshirani, Pengantar Pembelajaran Statistik , sebuah buku yang pada dasarnya merupakan penyederhanaan ESL + beberapa laboratorium kode R yang sangat keren (kecuali untuk fakta bahwa mereka menggunakan attach
, tapi, hei, tidak ada yang sempurna). Saya akan daftar di bawah alasan pro dan kontra dari terminologi ini.
Pertama-tama, kita harus ingat bahwa kita tidak hanya berasumsi untuk memiliki mean 0, tetapi juga menjadi independen dari X (lihat paragraf 2.6.1, rumus 2,29 dari ESL, 2 nd edition, 12 th pencetakan). Maka tentu saja ϵ tidak dapat diperkirakan dari X , tidak peduli hipotesis kelas H (keluarga model) mana yang kita pilih, dan seberapa besar sampel yang kita gunakan untuk mempelajari hipotesis kita (perkirakan model kita). Ini menjelaskan mengapa σ 2 ϵ disebut erreducible error .ϵXϵXHσ2ϵ
Dengan analogi, tampaknya wajar untuk menentukan bagian kesalahan yang tersisa, , kesalahan yang dapat direduksi . Sekarang, terminologi ini mungkin terdengar agak membingungkan: pada kenyataannya, berdasarkan asumsi yang kami buat untuk proses pembuatan data, kami dapat membuktikan bahwaKesalahan ( x0) - σ2ϵ
f( x ) = E [ Y| X= x ]
Dengan demikian, kesalahan yang dapat direduksi dapat dikurangi menjadi nol jika dan hanya jika (dengan asumsi tentu saja kami memiliki penduga yang konsisten). If E [ Y | X = x ] ∉ H , kami tidak dapat mengarahkan kesalahan yang dapat dikurangi ke 0, bahkan dalam batas ukuran sampel yang tak terbatas. Namun, itu masih satu-satunya bagian dari kesalahan kami yang dapat dikurangi, jika tidak dihilangkan, dengan mengubah ukuran sampel, memperkenalkan regularisasi (penyusutan) di estimator kami, dll Dengan kata lain, dengan memilih yang lain f ( x )E [Y| X= x ] ∈ HE [Y| X= x ] ∉ Hf^( x ) dalam keluarga model kami.
Pada dasarnya, reducible dimaksudkan bukan dalam arti zeroable (yuck!), Tetapi dalam artian bagian kesalahan itu yang bisa dikurangi, walaupun tidak harus dibuat semena-mena kecil. Juga, perhatikan bahwa pada prinsipnya kesalahan ini dapat dikurangi menjadi 0 dengan memperbesar hingga mencakup E [ Y | X = x ] . Sebaliknya, σ 2 ε tidak dapat dikurangi, tidak peduli seberapa besar H adalah, karena ε ⊥ X .HE [Y| X= x ]σ2ϵHϵ ⊥ X