Apa yang dimaksud dengan varian * fungsi * di * Pengantar Pembelajaran Statistik *?


11

Pada hal. 34 dari Pengantar Pembelajaran Statistik :

Meskipun bukti matematika adalah di luar cakupan buku ini, adalah mungkin untuk menunjukkan bahwa tes diharapkan MSE, untuk nilai yang diberikan x0 , selalu dapat didekomposisi menjadi jumlah dari tiga jumlah mendasar: varians dari f^(x0) , bias kuadrat dari f^(x0) dan varians dari istilah kesalahan ε . Itu adalah,

E(y0f^(x0))2=Var(f^(x0))+[Bias(f^(x0))]2+Var(ε)

[...] Varians merujuk pada jumlah yang akan diubah f^ jika kami memperkirakannya menggunakan kumpulan data pelatihan yang berbeda.

Pertanyaan: Karena Var(f^(x0)) tampaknya menunjukkan variasi fungsi , apa artinya ini secara formal?

Yaitu, saya akrab dengan konsep varian dari variabel acak X , tetapi bagaimana dengan varian dari serangkaian fungsi? Bisakah ini dianggap hanya sebagai varian dari variabel acak lain yang nilainya mengambil bentuk fungsi?


6
Mengingat bahwa setiap kali muncul dalam rumus yang telah diterapkan ke "nilai yang diberikan" , varians berlaku untuk angka , bukan untuk itu sendiri. Karena angka itu mungkin telah dikembangkan dari data yang dimodelkan dengan variabel acak, itu juga merupakan variabel acak (bernilai nyata). Konsep varians yang biasa berlaku. x0 f (x0) ff^x0 f^(x0)f^
Whuber

2
Saya melihat. Jadi berubah (bervariasi di antara set data pelatihan yang berbeda), tetapi kami masih melihat varians dari sendiri. f (x0)f^f^(x0)
George

Siapa penulis buku teks ini? Saya ingin mempelajari subjek ini sendiri dan akan sangat menghargai rekomendasi referensi Anda.
Chill2Macht

3
@WilliamKrinsman Ini adalah buku: www-bcf.usc.edu/~gareth/ISL
Matthew Drury

Jawaban:


13

Korespondensi Anda dengan @whuber benar.

Algoritma pembelajaran dapat dilihat sebagai fungsi tingkat yang lebih tinggi, memetakan pelatihan yang disetel ke fungsi.A

A:T{ff:XR}

di mana adalah ruang set latihan yang memungkinkan. Ini bisa sedikit berbulu secara konseptual, tetapi pada dasarnya setiap pelatihan individu menetapkan hasil, setelah menggunakan algoritma pelatihan model, dalam fungsi khusus yang dapat digunakan untuk membuat prediksi yang diberikan titik data . f xTfx

Jika kita melihat ruang set pelatihan sebagai ruang probabilitas, sehingga ada beberapa distribusi set data pelatihan yang mungkin, maka algoritma pelatihan model menjadi fungsi yang bernilai variabel acak, dan kita bisa memikirkan konsep statistik. Secara khusus, jika kita memperbaiki titik data tertentu , maka kita mendapatkan variabel acak bernilai numerikx0

Ax0(T)=A(T)(x0)

Yaitu, pertama-tama latih algoritma pada , dan kemudian evaluasi model yang dihasilkan pada . Ini hanyalah variabel acak yang lama, tetapi dibangun dengan cerdik, pada ruang probabilitas, sehingga kita dapat berbicara tentang variansnya. Ini adalah varian dalam rumus Anda dari ISL.x 0Tx0


5

Interpretasi visual menggunakan kfold berulang

Untuk memberikan interpretasi visual / intuitif pada jawaban @Matthew Drury, perhatikan contoh mainan berikut ini.

  • Data dihasilkan dari kurva sinus berisik: "True noise"f(x) +
  • Data dibagi antara sampel pelatihan dan pengujian (75% - 25%)
  • Model linear (polinomial) disesuaikan dengan data pelatihan:f^(x)
  • Proses ini diulang berkali-kali menggunakan data yang sama (yaitu pelatihan pemisahan - pengujian secara acak menggunakan Sklearm diulang kfold)
  • Ini menghasilkan banyak model yang berbeda, dari mana kita menghitung mean dan varians pada setiap titik serta atas semua titik.x=xi

Lihat di bawah untuk grafik yang dihasilkan untuk model polinomial derajat 2 dan derajat 6. Pada pandangan pertama, tampaknya polinomial yang lebih tinggi (berwarna merah) memiliki varian yang lebih besar.

masukkan deskripsi gambar di sini

Berargumen bahwa grafik merah memiliki varian yang lebih besar - secara eksperimen

Biarkan dan - sesuai dengan grafik hijau dan merah dan menjadi salah satu contoh grafik, berwarna hijau muda dan merah muda. Misalkan adalah jumlah titik di sepanjang sumbu dan menjadi jumlah grafik (yaitu jumlah simulasi). Di sini kita memiliki dan f r f (i)nxmn=400m=200f^gf^rf^(i)nxmn=400m=200

Saya melihat tiga skenario utama

  1. Varian dari nilai prediksi pada satu titik spesifik lebih besar yaitux=x0Var [{f^r(1)(x0),...,f^r(m)(x0)}]>Var [{f^g(1)(x0),...,f^g(i)(x0)}]
  2. Varians dalam lebih besar untuk semua poin dalam rentang { x 1 , . . . , x 400 } ( 0 , 1 )(1) {x1,...,x400}(0,1)
  3. Variansnya lebih besar rata-rata (mis. Mungkin lebih kecil untuk beberapa poin)

Dalam kasus contoh mainan ini, ketiga skenario berlaku pada rentang yang membenarkan argumen bahwa kecocokan polinomial orde tinggi (merah) memiliki varian lebih tinggi daripada polinomial orde rendah (berwarna hijau).(0,1)

Kesimpulan terbuka

Apa yang harus diperdebatkan ketika ketiga skenario di atas tidak semuanya berlaku. Misalnya, bagaimana jika varian prediksi merah lebih besar dari rata-rata, tetapi tidak untuk semua poin.

Detail label

Pertimbangkan titikx0=0.5

  • Bilah galat adalah rentang antara min dan maksf^(x0)
  • Varians dihitung padax0
  • True adalah garis biru putus-putusf(x)

Saya suka ide ini menggambarkan konsep menggunakan gambar. Saya bertanya-tanya tentang dua aspek posting Anda, dan saya harap Anda bisa mengatasinya. Pertama, dapatkah Anda menjelaskan secara lebih eksplisit bagaimana plot ini menunjukkan "varians fungsi"? Kedua, sama sekali tidak jelas bahwa plot merah menunjukkan "varians yang lebih besar" atau bahkan bahwa kedua plot setuju dengan perbandingan yang sederhana. Pertimbangkan penyebaran vertikal nilai merah di atas misalnya, dan bandingkan dengan penyebaran nilai hijau di titik yang sama: yang merah terlihat sedikit lebih menyebar daripada yang hijau. x=0.95,
whuber

Maksud saya bukanlah apakah mungkin untuk membaca plot Anda dengan presisi tinggi: itu adalah arti membandingkan dua plot seperti jika satu dapat dianggap sebagai varian "lebih tinggi" atau "lebih rendah" daripada yang lain dipertanyakan, mengingat kemungkinan bahwa untuk beberapa rentang varians prediksi akan lebih tinggi di satu plot dan untuk rentang lain varians akan lebih rendah. xxx
Whuber

Ya saya setuju - Saya telah mengedit posting untuk mencerminkan komentar Anda
Xavier Bourret Sicotte
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.