Kesalahan prediksi yang diharapkan - derivasi

Saya berjuang untuk memahami derivasi dari kesalahan prediksi yang diharapkan per bawah (ESL), terutama pada derivasi dari 2.11 dan 2.12 (mengkondisikan, langkah menuju titik minimum bijaksana). Setiap petunjuk atau tautan sangat dihargai.

Di bawah ini saya melaporkan kutipan dari ESL hal. 18. Dua persamaan pertama adalah, secara berurutan, persamaan 2.11 dan 2.12.

Misalkan menunjukkan vektor input acak bernilai nyata, dan variabel output acak bernilai nyata, dengan distribusi gabungan . Kami mencari fungsi untuk memprediksi nilai yang diberikan dari input . Teori ini membutuhkan fungsi kerugian untuk menghukum kesalahan dalam prediksi, dan sejauh ini yang paling umum dan nyaman adalah hilangnya kesalahan kuadrat : . Ini membawa kita ke kriteria untuk memilih , $X \in \mathbb{R}^p$ $Y \in \mathbb{R}$ $\text{Pr}(X,Y)$ $f(X)$ $Y$ $X$ $L(Y,f(X))$ $L(Y,f(X))=(Y-f(X))^2$ $f$

\begin{aligned} EPE (f) & = E (Y - f (X))^{2} \\ = \int [y - f (x)]^{2} Pr (d x, d y) \end{aligned}

$\begin{split} \text{EPE}(f) &= \text{E}(Y - f(X))^2\\ & = \int [y - f(x)]^2 \text{Pr}(dx, dy) \end{split}$

kesalahan prediksi yang diharapkan (kuadrat). Dengan mengkondisikan , kita dapat menulis sebagai EPE $X$

EPE (f) = E_{X} E_{Y | X} ([Y - f (X)]^{2} | X)

$\text{EPE}(f) = \text{E}_X \text{E}_{Y|X}([Y-f(X)]^2|X)$

dan kami melihat bahwa itu sudah cukup untuk meminimalkan EPE point-wise:

f (x) = {Argmin}_{c} E_{Y | X} ([Y - c]^{2} | X)

$f(x) = \text{argmin}_c \text{E}_{Y|X}([Y-c]^2|X)$

Solusinya adalah

f (x) = E (Y | X = x)

$f(x) = \text{E}(Y|X=x)$

harapan bersyarat, juga dikenal sebagai fungsi regresi .

regression prediction error

— pengguna1885116
sumber

Mengganti dan dalam persamaan pertama dalam artikel Wikipedia tentang Hukum Total Ekspektasi memberikan persamaan (2,9) dan (2,11). Baca artikel itu untuk bukti. (2.12) bersifat langsung, dengan pengertian bahwa harus dipilih untuk meminimalkan EPE.

X

$X$

Y

$Y$

f

$f$

— whuber

Catatan: Ini dari Elemen Pembelajaran Statistik

— Zhubarb

Bagi mereka yang juga membaca buku ini, lihat catatan komprehensif ini oleh Weathermax dan Epstein

— Dodgie

@Dodgie Tautan itu telah mati: (

— Matthew Drury

@MatthewDrury Untungnya, googling "Statistik Weathermax dan Epstein" mengembalikan tautan sebagai hasil pertama;) - waxworksmath.com/Authors/G_M/Hastie/WriteUp/…

— Dodgie

Jawaban:

\begin{aligned} E P E (f) & = \int [y - f (x)]^{2} P r (d x, d y) \\ = \int [y - f (x)]^{2} p (x, y) d x d y \\ = \int_{x} \int_{y} [y - f (x)]^{2} p (x, y) d x d y \\ = \int_{x} \int_{y} [y - f (x)]^{2} p (x) p (y | x) d x d y \\ = \int_{x} (\int_{y} [y - f (x)]^{2} p (y | x) d y) p (x) d x \\ = \int_{x} (E_{Y | X} ([Y - f (X)]^{2} | X = x)) p (x) d x \\ = E_{X} E_{Y | X} ([Y - f (X)]^{2} | X = x) \end{aligned}

$\begin{align*} EPE(f) &= \int [y - f(x)]^2 Pr(dx, dy) \\ &= \int [y - f(x)]^2p(x,y)dxdy \\ &= \int_x \int_y [y - f(x)]^2p(x,y)dxdy \\ &= \int_x \int_y [y - f(x)]^2p(x)p(y|x)dxdy \\ &= \int_x\left( \int_y [y - f(x)]^2p(y|x)dy \right)p(x)dx \\ &= \int_x \left( E_{Y|X}([Y - f(X)]^2|X = x) \right) p(x)dx\\ &= E_{X}E_{Y|X}([Y - f(X)]^2| X = x) \end{align*}$

— pengguna48002
sumber

Saya mengerti apa yang Anda tulis, tetapi apakah Anda berpikir jika OP bingung dengan derivasi yang ditunjukkan dalam pertanyaan, bahwa dia akan memahami jawaban Anda? tentu saja, saya sudah mengerti derivasi yang ditunjukkan dalam pertanyaan.

— Mark L. Stone

Saya tiba di sini dari google dengan pertanyaan yang sama dan benar-benar menemukan derivasi ini tepat seperti yang saya butuhkan.

— Titik koma dan Duct Tape

@ MarkL.Stone - ini mungkin pertanyaan bodoh, tetapi bisakah Anda menjelaskan apa yang dimaksud dengan

dan bagaimana itu menjadi

? Terima kasih banyak

P r (d x, d y)

$Pr(dx,dy)$

p (x, y) d x d y

$p(x,y)dxdy$

— Xavier Bourret Sicotte

Yang dimaksud dengan yang pertama adalah yang terakhir. Saya pikir lebih umum menggunakan dP (x, y) atau dF (x, y). Dalam 1D, Anda akan sering melihat dF (x) berarti f (x) dx, di mana f (x) adalah fungsi kepadatan probabilitas, tetapi notasi juga dapat memungkinkan fungsi massa probabilitas diskrit (dalam penjumlahan) atau bahkan campuran dari kepadatan berkesinambungan dan massa probabilitas diskrit.

— Mark L. Stone

Bukankah lebih tepat untuk mengatakan (rumus terakhir)

E_{X} (E_{Y | X} ([Y - f (X)]^{2} | X = x))

$E_{X}(E_{Y|X}([Y - f(X)]^2| X = x))$

— D1X

Persamaan (2.11) adalah konsekuensi dari kesetaraan kecil berikut. Untuk dua variabel acak, dan , dan fungsi apa saja $Z_1$ $Z_2$ $g$

E_{Z_{1}, Z_{2}} (g (Z_{1}, Z_{2})) = E_{Z_{2}} (E_{Z_{1} ∣ Z_{2}} (g (Z_{1}, Z_{2}) ∣ Z_{2}))

$E_{Z_1, Z_2} (g(Z_1, Z_2)) = E_{Z_2}(E_{Z_1 \mid Z_2}(g(Z_1, Z_2) \mid Z_2))$

Notasi adalah harapan atas bersama distribusi. Notasi pada dasarnya mengatakan "berintegrasi dengan distribusi bersyarat seolah-olah diperbaiki". $E_{Z_1, Z_2}$ $E_{Z_1 \mid Z_2}$ $Z_1$ $Z_2$

Sangat mudah untuk memverifikasi ini dalam kasus yang dan adalah variabel acak diskrit dengan hanya unwinding definisi yang terlibat $Z_1$ $Z_2$

\begin{aligned} E_{Z_{2}} & (E_{Z_{1} ∣ Z_{2}} (g (Z_{1}, Z_{2}) ∣ Z_{2})) \\ = E_{Z_{2}} (\sum_{z_{1}} g (z_{1}, Z_{2}) P r (Z_{1} = z_{1} ∣ Z_{2})) \\ = \sum_{z_{2}} (\sum_{z_{1}} g (z_{1}, z_{2}) P r (Z_{1} = z_{1} ∣ Z_{2} = z_{2})) P r (Z_{2} = z_{2}) \\ = \sum_{z_{1}, z_{2}} g (z_{1}, z_{2}) P r (Z_{1} = z_{1} ∣ Z_{2} = z_{2}) P r (Z_{2} = z_{2}) \\ = \sum_{z_{1}, z_{2}} g (z_{1}, z_{2}) P r (Z_{1} = z_{1}, Z_{2} = z_{2}) \\ = E_{Z_{1}, Z_{2}} (g (Z_{1}, Z_{2})) \end{aligned}

$\begin{align} E_{Z_2} & (E_{Z_1 \mid Z_2}(g(Z_1, Z_2) \mid Z_2)) \\ &= E_{Z_2} \left( \sum_{z_1} g(z_1, Z_2) Pr(Z_1 = z_1 \mid Z_2 ) \right) \\ &= \sum_{z_2} \left( \sum_{z_1} g(z_1, z_2) Pr(Z_1 = z_1 \mid Z_2 = z_2 ) \right) Pr(Z_2 = z_2) \\ &= \sum_{z_1, z_2} g(z_1, z_2) Pr(Z_1 = z_1 \mid Z_2 = z_2) Pr(Z_2 = z_2) \\ &= \sum_{z_1, z_2} g(z_1, z_2) Pr(Z_1 = z_1, Z_2 = z_2 ) \\ &= E_{Z_1, Z_2} (g(Z_1, Z_2)) \end{align}$

Kasus kontinu dapat dilihat secara informal sebagai batasan argumen ini, atau secara formal diverifikasi setelah semua ukuran teori do-ayah ada di tempat.

Untuk melepas aplikasi, ambil , , dan . Semuanya berbaris tepat. $Z_1 = Y$ $Z_2 = X$ $g(x, y) = (y - f(x))^2$

Penegasan (2.12) meminta kami untuk mempertimbangkan meminimalkan

E_{X} E_{Y ∣ X} (Y - f (X))^{2}

$E_X E_{Y \mid X} (Y - f(X))^2$

di mana kita bebas memilih seperti yang kita inginkan. Sekali lagi, berfokus pada kasing diskrit, dan jatuh setengah ke atas di atas, kita melihat bahwa kita meminimalkan $f$

\sum_{x} (\sum_{y} (y - f (x))^{2} P r (Y = y ∣ X = x)) P r (X = x)

$\sum_{x} \left( \sum_{y} (y - f(x))^2 Pr(Y = y \mid X = x) \right) Pr(X = x)$

Segala sesuatu di dalam tanda kurung besar adalah non-negatif, dan Anda dapat meminimalkan jumlah jumlah non-negatif dengan meminimalkan puncak secara individual. Dalam konteks, ini berarti bahwa kita dapat memilih untuk meminimalkan $f$

\sum_{y} (y - f (x))^{2} P r (Y = y ∣ X = x)

$\sum_{y} (y - f(x))^2 Pr(Y = y \mid X = x)$

secara individual untuk setiap nilai diskrit . Ini persis isi dari apa yang diklaim ESL, hanya dengan notasi yang lebih menarik. $x$

— Matthew Drury
sumber

Saya menemukan beberapa bagian dalam buku ini diungkapkan dengan cara yang sulit dipahami, terutama bagi mereka yang tidak memiliki latar belakang yang kuat dalam statistik.

Saya akan mencoba membuatnya menjadi sederhana dan berharap Anda dapat menghilangkan kebingungan.

$E(X) = E(E(X|Y)),\forall X,Y$

\begin{aligned} E (E (X | Y)) & = \int E (X | Y = y) f_{Y} (y) d y \\ = \int \int x f_{X | Y} (x | y) d x f_{Y} (y) d y \\ = \int \int x f_{X | Y} (x | y) f_{Y} (y) d x d y \\ = \int \int x f_{X Y} (x, y) d x d y \\ = \int x (\int f_{X Y} (x, y) d y) d x \\ = \int x f_{X} (x) d x = E (X) \end{aligned}

$\begin{align} E(E(X|Y)) &= \displaystyle\int E(X|Y=y) f_Y(y) dy \\ &= \int \int x f_{X|Y} (x|y) dx f_Y(y) dy \\ &= \int \int x f_{X|Y} (x|y) f_Y(y) dx dy \\ &= \int \int x f_{XY} (x,y) dx dy \\ &= \int x \left(\int f_{XY} (x,y) dy \right) dx \\ &= \int x f_X(x) dx = E(X) \end{align}$

$E(Y - f(X))^2 \geq E(Y - E(Y|X))^2, \forall f$

\begin{aligned} E ((Y - f (X))^{2} | X) & = E (([Y - E (Y | X)] + [E (Y | X) - f (X)])^{2} | X) \\ = E ((Y - E (Y | X))^{2} | X) + E ((E (Y | X) - f (X))^{2} | X) + \\ 2 E ((Y - E (Y | X)) (E (Y | X) - f (X)) | X) \\ = E ((Y - E (Y | X))^{2} | X) + E ((E (Y | X) - f (X))^{2} | X) + \\ 2 (E (Y | X) - f (X)) E (Y - E (Y | X)) | X) \\ (sejak E (Y | X) - f (X) diberikan konstan X) \\ = E ((Y - E (Y | X))^{2} | X) + E ((E (Y | X) - f (X))^{2} | X) (gunakan Klaim 1) \\ \geq E ((Y - E (Y | X))^{2} | X) \end{aligned}

$\begin{align} E((Y - f(X))^2 | X) &= E( ([Y - E(Y|X)] + [E(Y|X) - f(X)])^2|X) \\ &= E((Y-E(Y|X))^2 |X) + E((E(Y|X) - f(X))^2|X) + \\ &\qquad 2 E((Y - E(Y|X))(E(Y|X) - f(X))|X) \\ &=E((Y-E(Y|X))^2 |X) + E((E(Y|X) - f(X))^2|X) + \\ &\qquad 2 (E(Y|X) - f(X)) E(Y - E(Y|X))|X) \\[5pt] &( \text{ since } E(Y|X) - f(X) \text{ is constant given } X) \\[5pt] &= E((Y-E(Y|X))^2 |X) + E((E(Y|X) - f(X))^2|X) \text{ ( use Claim 1 }) \\ &\geq E((Y-E(Y|X))^2 |X) \end{align}$

Mengambil harapan kedua sisi persamaan di atas memberikan Klaim 2 (QED)

Oleh karena itu, f optimal adalah $f(X) = E(Y|X)$

— Thanhtang
sumber