Apakah ada representasi grafis tradeoff bias-varians dalam regresi linier?


18

Saya menderita pemadaman. Saya disajikan gambar berikut untuk menunjukkan tradeoff bias-varians dalam konteks regresi linier:

Model polinomial untuk data, kasus sederhana dan kompleks

Saya dapat melihat bahwa tidak satu pun dari kedua model yang cocok - "sederhana" tidak menghargai kompleksitas hubungan XY dan "kompleks" hanya overfitting, pada dasarnya mempelajari data pelatihan dengan hati. Namun saya benar-benar gagal melihat bias dan varians dalam dua gambar ini. Bisakah seseorang menunjukkan ini kepada saya?

PS: Jawaban untuk penjelasan intuitif tentang tradeoff bias-varians? tidak benar-benar membantu saya, saya akan senang jika seseorang dapat memberikan pendekatan yang berbeda berdasarkan gambar di atas.

Jawaban:


11

Trade-off varians bias didasarkan pada pemecahan galat kuadrat rata-rata:

MSE(y^)=E[yy^]2=E[yE[y^]]2+E[y^E[y^]]2

Salah satu cara untuk melihat perdagangan bias-varians adalah properti apa dari set data yang digunakan dalam model fit. Untuk model sederhana, jika kita mengasumsikan bahwa regresi OLS digunakan agar sesuai dengan garis lurus, maka hanya 4 angka yang digunakan agar sesuai dengan garis:

  1. Sampel kovarians antara x dan y
  2. Varians sampel x
  3. Rata-rata sampel x
  4. Rata-rata sampel y

Jadi, setiap grafik yang mengarah ke 4 angka yang sama di atas akan mengarah ke garis pas yang sama persis (10 poin, 100 poin, 100000000 poin). Jadi dalam arti itu tidak sensitif terhadap sampel tertentu yang diamati. Ini berarti akan "bias" karena secara efektif mengabaikan bagian dari data. Jika bagian data yang diabaikan itu penting, maka prediksi akan secara konsisten salah. Anda akan melihat ini jika Anda membandingkan garis yang dipasang menggunakan semua data dengan garis yang dipasang yang diperoleh dari menghapus satu titik data. Mereka akan cenderung cukup stabil.

Sekarang model kedua menggunakan setiap memo data yang bisa didapat, dan cocok dengan data sedekat mungkin. Oleh karena itu, posisi yang tepat dari setiap titik data penting, sehingga Anda tidak dapat menggeser data pelatihan tanpa mengubah model yang pas seperti yang Anda bisa untuk OLS. Dengan demikian model ini sangat sensitif terhadap set pelatihan tertentu yang Anda miliki. Model yang dipasang akan sangat berbeda jika Anda melakukan plot titik data drop-one yang sama.


Bias dan varians estimasi parameter model atau nilai output yang diprediksi ? Beberapa orang mengatakan kepada saya bahwa istilah bias dan varians hanya dapat digunakan untuk menggambarkan parameter model , bukan data , itu? y θx,yθ^y^θx,y
alpukat

Saya tidak berpikir ini benar, saya pikir Anda berbicara tentang prediksi ( ) vs estimasi ( ). Keduanya memiliki pengertian bias dan varians - misalnya Anda memiliki "BLUE" untuk parameter regresi dan "BLUP" untuk prediksi titik data masa depan. θy^θ^
probabilityislogic

Untuk estimasi parameter , biasnya , tetapi tidak diketahui oleh kita, kan? Selain itu, mengingat kumpulan data, kita tidak tahu seperti apa model yang sebenarnya akan terlihat, misalnya, model sebenarnya di balik data adalah , tetapi kami memilih model regresi linier agar sesuai dengan data, jadi inilah paradoksnya: parameter sebenarnya adalah , yang merupakan tujuan yang harus kita coba perkirakan, tetapi kita berakhir dengan perkiraan , lalu menghitung atau menganalisis dan ? θ^bias(θ^)=θE[θ^]θf(x)=a+bx+cx2h(x)=d+ex(a,b,c)(d,e)bias(d)bias(e)
alpukat

@loganecolss - ini bukan paradoks karena gagasan bias hanya ada "secara lokal" - yaitu, sehubungan dengan model statistik yang diberikan. "Paradoks" ada untuk seseorang yang: 1) mengetahui "model yang sebenarnya", dan 2) memutuskan untuk tidak menggunakannya. Orang itu idiot di buku saya. Jika Anda tidak tahu "model yang sebenarnya" maka tidak ada masalah - kecuali Anda telah menemukan model yang bagus dan memutuskan untuk tidak menggunakannya ...
probabilityislogic

1
Anda memiliki fantasi mengetahui "model yang sebenarnya" - saya pikir bukan pertanyaan yang tepat untuk diajukan - ini lebih merupakan pertanyaan "apakah model saya saat ini tidak memiliki cukup atau terlalu banyak parameter?" - ini tidak tergantung pada mengetahui apa "model sebenarnya" itu, dan dapat dijawab melalui diagnostik model standar. Misalnya, mengapa "model sejati" Anda merupakan fungsi dari variabel yang telah Anda kumpulkan - dan bukan fungsi seperti mana Anda tidak tahu 1) apa yang nilai-nilai, dan 2) berapa banyak dari mereka ada - yaitu Anda tidak tahu . f(x,z1,z2,,zK)ziK
probabilityislogic

5

Untuk meringkas dengan apa yang saya pikir saya tahu secara non-matematis:

  • Bias - prediksi Anda akan salah ketika Anda menggunakan model sederhana dan itu akan terjadi pada dataset apa pun yang Anda gunakan model. Prediksi Anda diperkirakan salah
  • variance - jika Anda menggunakan model yang kompleks, Anda akan mendapatkan prediksi yang sangat berbeda berdasarkan pada dataset mana yang Anda gunakan

Halaman ini memiliki penjelasan yang cukup bagus dengan diagram yang mirip dengan yang Anda poskan. (Saya melewatkan bagian atas, hanya membaca bagian dengan diagram) http://www.aiaccess.net/English/Glossaries/GlosMod/e_gm_bias_variance.htm (mouseover menunjukkan sampel berbeda jika Anda tidak memperhatikan!)


Itu adalah halaman yang menarik dan ilustrasi yang baik, tetapi saya menemukan mereka lebih membingungkan daripada membantu karena (a) "bias" dan "varians" yang dibahas dalam konteks regresi tampaknya tidak menjadi bias dan varians seperti yang didefinisikan pada awal itu. halaman dan (b) sama sekali tidak jelas bahwa pernyataan yang dibuat (tentang bagaimana bias dan varians berubah dengan jumlah parameter) benar.
whuber
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.