Intuisi matematika dari persamaan Bias-Variance

Saya baru-baru ini mengajukan pertanyaan mencari interpretasi matematika / intuisi di balik persamaan dasar yang berkaitan dengan mean sampel dan varians: , geometris atau sebaliknya. $E[X^2] = Var(X) +(E[X])^2$

Tapi sekarang saya ingin tahu tentang persamaan tradeoff varians yang sangat mirip.

\begin{array}{rcl} MSE (\hat{θ}) = E [(\hat{θ} - θ)^{2}] & = & E [(\hat{θ} - E [\hat{θ}])^{2}] + (E [\hat{θ}] - θ)^{2} \\ = & Var (\hat{θ}) + Bias (\hat{θ}, θ)^{2} \end{array}

$\begin{eqnarray} \text{MSE}(\hat{\theta}) = E [(\hat{\theta}-\theta)^2 ] &=& E[(\hat{\theta} - E[\hat\theta])^2] + (E[\hat\theta] - \theta)^2\\ &=& \text{Var}(\hat\theta) + \text{Bias}(\hat\theta,\theta)^2 \\ \end{eqnarray}$ (formula dari Wikipedia )

Bagi saya ada kesamaan dangkal dengan persamaan tradeoff bias-varians untuk regresi: tiga istilah dengan kuadrat dan dua menambahkan ke yang lain. Sangat Pythagoras mencari. Apakah ada hubungan vektor yang serupa termasuk ortogonalitas untuk semua item ini? Atau ada beberapa interpretasi matematika terkait lainnya yang berlaku?

Saya mencari analogi matematika dengan beberapa objek matematika lain yang mungkin menjelaskan. Saya tidak mencari analogi akurasi-presisi yang dibahas dengan baik di sini. Tetapi jika ada analogi non-teknis yang dapat diberikan orang antara bias-varians tradeoff dan hubungan mean-variance yang jauh lebih mendasar, itu juga akan hebat.

variance bias

— Mitch
sumber

Kesamaannya lebih dari dangkal.

"Tradeoff varians-bias" dapat diartikan sebagai Teorema Pythagoras yang diterapkan pada dua vektor Euclidean tegak lurus: panjang satu adalah standar deviasi dan panjang yang lain adalah bias. Panjang sisi miring adalah akar kuadrat kesalahan.

Hubungan yang mendasar

Sebagai titik tolak, pertimbangkan perhitungan yang mengungkapkan ini, valid untuk variabel acak dengan momen kedua terbatas dan bilangan real apa pun . Karena momen kedua adalah terbatas, memiliki mean hingga yang , dari mana $X$ $a$ $X$ $\mu=\mathbb{E}(X)$ $\mathbb{E}(X-\mu)=0$

\begin{matrix} (1) & \begin{aligned} E ((X - a)^{2}) & = E ((X - μ + μ - a)^{2}) \\ = E ((X - μ)^{2}) + 2 E (X - μ) (μ - a) + (μ - a)^{2} \\ = Var (X) + (μ - a)^{2} . \end{aligned} \end{matrix}

$\eqalign{ \mathbb{E}((X-a)^2) &= \mathbb{E}((X-\mu\,+\,\mu-a)^2) \\ &= \mathbb{E}((X-\mu)^2) + 2 \mathbb{E}(X-\mu)(\mu-a) + (\mu-a)^2 \\ &= \operatorname{Var}(X) + (\mu-a)^2.\tag{1} }$

Menunjukkan ini bagaimana deviasi mean kuadrat antara dan setiap nilai "dasar" bervariasi dengan : itu adalah fungsi kuadrat dari dengan minimal di , di mana rata-rata deviasi kuadrat adalah varian . $X$ $a$ $a$ $a$ $\mu$ $X$

Koneksi dengan estimator dan bias

Setiap estimator adalah variabel acak karena (menurut definisi) ini adalah fungsi (terukur) variabel acak. Membiarkannya memainkan peran dalam sebelumnya, dan membiarkan estimand (hal seharusnya perkiraan) menjadi , kita memiliki $\hat \theta$ $X$ $\hat\theta$ $\theta$

MSE (\hat{θ}) = E ((\hat{θ} - θ)^{2}) = Var (\hat{θ}) + (E (\hat{θ}) - θ)^{2} .

$\operatorname{MSE}(\hat\theta) = \mathbb{E}((\hat\theta-\theta)^2) = \operatorname{Var}(\hat\theta) + (\mathbb{E}(\hat\theta)-\theta)^2.$

Mari kita kembali ke sekarang kita telah melihat bagaimana pernyataan tentang bias + varians untuk estimator secara harfiah adalah kasus . Pertanyaannya mencari "analogi matematika dengan objek matematika." Kita dapat melakukan lebih dari itu dengan menunjukkan bahwa variabel acak kuadrat-integrasi dapat secara alami dibuat menjadi ruang Euclidean. $(1)$ $(1)$

Latar belakang matematika

Dalam arti yang sangat umum, variabel acak adalah fungsi bernilai nyata (terukur) pada ruang probabilitas . Himpunan fungsi-fungsi seperti itu yang integrable persegi, yang sering ditulis (dengan struktur probabilitas yang diberikan dipahami), hampir merupakan ruang Hilbert. Untuk membuatnya menjadi satu, kita harus conflate dua variabel acak dan yang tidak benar-benar berbeda dalam hal integrasi: yaitu, kita katakan dan yang setara kapanpun $(\Omega, \mathfrak{S}, \mathbb{P})$ $\mathcal{L}^2(\Omega)$ $X$ $Y$ $X$ $Y$

E (| X - Y |^{2}) = \int_{Ω} | X (ω) - Y (ω) |^{2} d P (ω) = 0.

$\mathbb{E}(|X-Y|^2) = \int_\Omega |X(\omega)-Y(\omega)|^2 d\mathbb{P}(\omega) = 0.$

Ini mudah untuk memeriksa bahwa ini adalah relasi ekivalen benar: yang paling penting, ketika setara dengan dan setara dengan , maka tentu akan setara dengan . Karena itu kami dapat mempartisi semua variabel acak kuadrat-integrable ke dalam kelas kesetaraan. Kelas-kelas ini membentuk set . Selain itu, mewarisi struktur ruang vektor dari didefinisikan oleh penambahan nilai secara pointwise dan multiplikasi skalar pointwise. Pada ruang vektor ini, fungsinya $X$ $Y$ $Y$ $Z$ $X$ $Z$ $L^2(\Omega)$ $L^2$ $\mathcal{L}^2$

X \to {(\int_{Ω} | X (ω) |^{2} d P (ω))}^{1 / 2} = \sqrt{E (| X |^{2})}

$X \to \left(\int_\Omega |X(\omega)|^2 d\mathbb{P}(\omega)\right)^{1/2}=\sqrt{\mathbb{E}(|X|^2)}$

adalah norma , sering ditulis . Norma ini membuat menjadi ruang Hilbert. Pikirkan ruang Hilbert sebagai "ruang Euclidean dimensi tak terbatas." Setiap subruang dimensi hingga mewarisi norma dari dan , dengan norma ini, adalah ruang Euclidean: kita dapat melakukan geometri Euclidean di dalamnya. $||X||_2$ $L^2(\Omega)$ $\mathcal{H}$ $V\subset \mathcal{H}$ $\mathcal{H}$ $V$

Akhirnya, kita memerlukan satu fakta yang khusus untuk ruang probabilitas (daripada ruang ukuran umum): karena adalah probabilitas, dibatasi (oleh ), di mana fungsi konstan (untuk setiap bilangan real tetap ) adalah variabel acak persegi yang dapat diintegrasikan dengan norma hingga. $\mathbb{P}$ $1$ $\omega\to a$ $a$

Penafsiran geometris

Pertimbangkan variabel acak persegi-integrable , dianggap sebagai perwakilan dari kelas ekivalennya dalam . Ini memiliki mean yang (sebagai salah satu dapat memeriksa) hanya bergantung pada kelas kesetaraan . Misalkan menjadi kelas dari variabel acak konstan. $X$ $L^2(\Omega)$ $\mu=\mathbb{E}(X)$ $X$ $\mathbf{1}:\omega\to 1$

$X$ dan menghasilkan subruang Euclidean yang dimensinya paling banyak . Dalam subruang ini, adalah panjang kuadrat dari dan adalah panjang kuadrat dari variabel acak konstan . Sangat mendasar bahwa tegak lurus terhadap . (Salah satu definisi dari adalah nomor unik yang menjadi kasusnya.) Hubungan dapat ditulis $\mathbf{1}$ $V\subset L^2(\Omega)$ $2$ $||X||_2^2 = \mathbb{E}(X^2)$ $X$ $||a\,\mathbf{1}||_2^2 = a^2$ $\omega\to a$ $X-\mu\mathbf{1}$ $\mathbf{1}$ $\mu$ $(1)$

| | X - a 1 | |_{2}^{2} = | | X - μ 1 | |_{2}^{2} + | | (a - μ) 1 | |_{2}^{2} .

$||X - a\mathbf{1}||_2^2 = ||X - \mu\mathbf{1}||_2^2 + ||(a-\mu)\mathbf{1}||_2^2.$

Ini memang merupakan tepatnya Teorema Pythagoras, di dasarnya bentuk yang sama diketahui 2500 tahun yang lalu. Objek adalah sisi miring dari segitiga siku-siku dengan kaki dan .

X - a 1 = (X - μ 1) - (a - μ) 1

$X-a\mathbf{1} = (X-\mu\mathbf{1})-(a-\mu)\mathbf{1}$

X - μ 1

$X-\mu\mathbf{1}$

(a - μ) 1

$(a-\mu)\mathbf{1}$

Jika Anda ingin analogi matematika, maka, Anda dapat menggunakan apa pun yang dapat diekspresikan dalam kaitannya dengan sisi miring dari segitiga siku-siku dalam ruang Euclidean. Hypotenuse akan mewakili "kesalahan" dan kaki akan mewakili bias dan penyimpangan dari rata-rata.

— whuber
sumber

Luar biasa. Jadi alasannya hampir identik dengan itu untuk pertanyaan saya sebelumnya re . Jadi ada analogi di antara mereka, kan? Tampaknya secara intuitif bahwa bias analog dengan rata-rata. Dan generalisasi adalah rata-rata adalah momen pertama berkenaan dengan 0, tetapi bias berkenaan dengan nilai sebenarnya dari suatu parameter. Apakah itu benar?

V a r = E X^{2} - (E X)^{2}

$Var = EX^2 - (EX)^2$

— Mitch

Ya - dengan ketentuan (yang merupakan wawasan yang ditambahkan oleh interpretasi geometris) bahwa cara yang tepat untuk mengukur hal-hal ini adalah dalam hal kotak mereka.

— Whuber

Jadi whuber, saya punya pertanyaan terkait. Untuk pembelajaran mesin apa pun, saya memiliki dua konsep ini "jika kita meningkatkan ukuran sampel, varians dari estimator yang tidak berpihak secara asimtotik akan menjadi nol" dan "jika kita meningkatkan kompleksitas model, oleh karena itu, kita akan memiliki bias yang rendah dan varian yang tinggi" . Oleh karena itu, dapatkah saya mengatakan bahwa kekuatan komputasi yang lebih banyak memungkinkan lebih banyak kompleksitas yang akan mengurangi bias, tetapi meningkatkan varians. Namun, di bawah asimptotik, peningkatan varian ini akan diimbangi.

— ARAT

@Mustafa Anda membuat beberapa asumsi yang kuat. Yang pertama adalah bahwa sampel adalah acak dan (setidaknya sekitar) independen - yang sering tidak terjadi dalam aplikasi ML. Kesimpulan tentang peningkatan kompleksitas model umumnya tidak benar, sebagian karena "meningkatnya kompleksitas" menyiratkan Anda mengubah model dan yang mempertanyakan arti estimasi Estimator Anda serta bagaimana Estimator tersebut terkait dengan estimasiandnya. . Itu tidak selalu mengikuti bahwa peningkatan kompleksitas model memiliki efek yang umumnya dapat diprediksi pada bias atau varians.

— whuber

Ini adalah cara untuk berpikir secara visual tentang keakuratan dan bias varians trade off. Misalkan Anda sedang melihat target dan Anda membuat banyak tembakan yang semuanya tersebar dekat dengan pusat target sedemikian rupa sehingga tidak ada bias. Kemudian akurasi hanya ditentukan oleh varians dan ketika varians kecil penembak akurat.

Sekarang mari kita perhatikan kasus di mana ada presisi besar tetapi bias besar. Dalam hal ini tembakan tersebar di sekitar titik yang jauh dari pusat. Sesuatu mengacaukan aimpoint tetapi di sekitar titik tujuan ini setiap tembakan dekat dengan titik tujuan baru. Penembaknya tepat tetapi sangat tidak akurat karena biasnya.

Ada situasi lain di mana tembakan akurat karena bias kecil dan presisi tinggi. Yang kita inginkan adalah tidak ada bias dan varians kecil atau varians kecil dengan bias kecil. Dalam beberapa masalah statistik Anda tidak dapat memiliki keduanya. Jadi MSE menjadi ukuran akurasi yang ingin Anda gunakan yang memainkan varians bias trade off dan meminimalkan MSE harus menjadi tujuannya.

— Michael R. Chernick
sumber

Deskripsi intuitif yang sangat baik tentang bias-varians dan analogi presisi-akurasi. Saya juga mencari interpretasi matematika seperti Teorema Pythagoras.

— Mitch

Saya tidak fokus pada hal itu karena dibahas di pos lain yang membahas interpretasi geometris. Saya akan menemukan tautan untuk Anda.

— Michael R. Chernick

@Mitch Pencarian "Bias-variance tradeoff" menghasilkan 134 hits di situs CV. Saya belum menemukan satu Teorema Pythagoras tapi yang ini benar-benar bagus dan memiliki gambar target yang saya bahas pada posting ini. "Penjelasan intuitif tentang tradeoff bias-varians".

— Michael R. Chernick

Saya menemukan yang saya cari mulai 5 Januari 2017 "intuisi (geometris atau lainnya) dari Var (X) = E [ ] - ( ).

X^{2}

$X^2$

E [X])^{2}

$E[X])^2$

— Michael R. Chernick

@Mitch Saya tidak menyadari bahwa Anda memposting pertanyaan yang saya cari.

— Michael R. Chernick