Bingung dengan Penurunan Fungsi Regresi

Saya baru saja mendapat salinan The Elements of Statistics Learning oleh Hastie, Tibshirani, dan Friedman. Dalam bab 2 (Ikhtisar Pembelajaran yang Dibimbing) bagian 4 (Teori Keputusan Statistik), ia memberikan derivasi dari fungsi regresi.

Misalkan menunjukkan vektor input acak bernilai nyata, dan variabel output acak bernilai nyata, dengan distribusi gabungan . Kami mencari fungsi untuk memprediksi nilai yang diberikan dari input . Teori ini membutuhkan fungsi kerugian untuk menghukum kesalahan dalam prediksi, dan sejauh ini yang paling umum dan nyaman adalah hilangnya kesalahan kuadrat: . Ini membawa kita ke kriteria untuk memilih , $X \in \mathbb{R}^p$ $Y\in\mathbb{R}$ $Pr(X,Y)$ $f(X)$ $Y$ $X$ $L(Y,f(X))$ $L(Y,f(X))=(Y −f(X))^2$ $f$

$\begin{aligned} E P E (f) & = E (Y - f (X))^{2} \\ = \int [y - f (x)]^{2} P r (d x, d y) \end{aligned}$ $\begin{align*} EPE(f) &= E(Y-f(X))^2 \\ &= \int [y - f(x)]^2Pr(dx, dy)\end{align*}$ yang diharapkan (kuadrat) kesalahan prediksi.

Saya benar-benar memahami pengaturan dan motivasi. Kebingungan pertama saya adalah: apakah maksudnya atau ? Kedua, saya belum pernah melihat notasi . Bisakah seseorang yang telah menjelaskan artinya kepada saya? Apakah hanya itu ? Sayangnya kebingungan saya tidak berakhir di sana, $E[(Y - f(x))]^2$ $E[(Y - f(x))^2]$ $Pr(dx,dy)$ $Pr(dx) = Pr(x)dx$

Dengan mengkondisikan , kita dapat menulis sebagai $X$ $EPE$
$\begin{aligned} E P E (f) = E_{X} E_{Y | X} ([Y - f (X)]^{2} | X) \end{aligned}$ $\begin{align*}EPE(f) = E_XE_{Y|X}([Y-f(X)]^2|X)\end{align*}$

Saya kehilangan koneksi antara dua langkah ini, dan saya tidak terbiasa dengan definisi teknis "pengkondisian". Beritahu saya jika saya bisa mengklarifikasi apa saja! Saya pikir sebagian besar kebingungan saya muncul dari notasi asing; Saya yakin bahwa, jika seseorang dapat memecah derivasi ini menjadi bahasa Inggris biasa, saya akan mendapatkannya. Terima kasih stats.SE!

regression statistical-learning

— Orangutango
sumber

Untuk kebingungan pertama Anda, itu harus Ekspektasi kesalahan kuadrat, jadi begitu $E[(Y-f(x))^2].$

Untuk notasi $Pr(dx,dy)$ , sama dengan $g(x,y)\,dx\,dy$ dimana $g(x,y)$ adalah pdf gabungan dari x dan y. Dan $Pr(dx)=f(x)\,dx$ , ini dapat ditafsirkan sebagai probabilitas x berada dalam interval kecil $[x,x+dx]$ sama dengan nilai pdf pada saat itu $x$ yaitu $f(x)$ kali panjang interval $dx$ .

Persamaan tentang EPE berasal dari teorema $E(E(Y|X))=E(Y)$ untuk dua variabel acak $X$ dan $Y$ . Anda dapat membuktikan ini dengan menggunakan distribusi bersyarat. Ekspektasi bersyarat adalah ekspektasi yang dihitung menggunakan distribusi bersyarat. Distribusi bersyarat $Y|X$ berarti probabilitas $Y$ setelah Anda tahu sesuatu tentang $X$ .

Dalam kasus kami, anggaplah kami menunjukkan kesalahan kuadrat sebagai fungsi $L(x,y)=(y-f(x))^2$ , EPE sedang menghitung

\begin{aligned} E (L (x, y)) & = \int \int L (x, y) g (x, y) d x d y \\ = \int [\int L (x, y) g (y | x) g (x) d y] d x \\ = \int [\int L (x, y) g (y | x) d y] g (x) d x \\ = \int [E_{Y | X} (L (x, y)] g (x) d x \\ = E_{X} (E_{Y | X} (L (x, y))) \end{aligned}

$\begin{equation}\begin{split}E(L(x,y))&=\int\int L(x,y)g(x,y)dx\,dy \\ &=\int\bigg[\int L(x,y)g(y|x)g(x)dy\bigg]dx \\ &=\int\bigg[\int L(x,y)g(y|x)dy\bigg]g(x)dx \\ &=\int\bigg[E_{Y|X} (L(x,y)\bigg]g(x)dx \\ &=E_X(E_{Y|X} (L(x,y)))\end{split}\end{equation}$

Hasil di atas sesuai dengan hasil yang Anda daftarkan. Semoga ini bisa sedikit membantu Anda.

— Jerry
sumber

Untuk hasil akhir setelah pengkondisian, buku ini juga memiliki | X, sedangkan hasil akhir dari jawaban ini tidak ada. Apakah itu penting?

— robertmartin8