Mengapa rata-rata setiap sampel bootstrap berisi sekitar dua pertiga dari pengamatan?


42

Saya telah berjalan di pernyataan bahwa setiap sampel bootstrap (atau pohon dikantongi) akan berisi rata-rata sekitar 2/3 dari pengamatan.

Saya mengerti bahwa kesempatan tidak dipilih dalam salah n menarik dari n sampel dengan penggantian (11/n)n , yang bekerja untuk sekitar 1/3 kesempatan tidak dipilih.

Apa penjelasan matematis mengapa rumus ini selalu memberikan 1/3 ?


10
Saya percaya ini adalah asal dari .632 dalam aturan bootstrap 632+.
gung - Reinstate Monica

Jawaban:


29

Pada dasarnya, masalahnya adalah untuk menunjukkan bahwa limn(11/n)n=e1
(dan tentu saja, e1=1/e1/3 , setidaknya sangat kasar).

Ini tidak bekerja pada n yang sangat kecil n- misalnya pada n=2 , (11/n)n=14 . Itu melewati 13 pada n=6 , melewati 0.35 pada n=11 , dan 0.366 oleh n=99 . Setelah Anda melampaui n=11 , 1e adalah pendekatan yang lebih baik daripada 13 .

masukkan deskripsi gambar di sini

Garis putus-putus berwarna abu-abu ada di 13 ; garis merah dan abu-abu ada di 1e .

Daripada menunjukkan derivasi formal (yang dapat dengan mudah ditemukan), saya akan memberikan garis besar (yang merupakan argumen intuisi, handwavy) tentang mengapa (sedikit) hasil yang lebih umum berlaku:

ex=limn(1+x/n)n

(Banyak orang mengambil ini menjadi definisi dari , tetapi Anda bisa membuktikannya dari hasil sederhana seperti mendefinisikan sebagai .)exp(x)elimn(1+1/n)n

Fakta 1: Berikut ini dari hasil dasar tentang kekuatan dan eksponensialexp(x/n)n=exp(x)

Fakta 2: Ketika besar, Ini mengikuti ekspansi seri untuk .nexp(x/n)1+x/nex

(Saya dapat memberikan argumen yang lebih lengkap untuk masing-masing hal ini tetapi saya menganggap Anda sudah mengenal mereka)

Pengganti (2) dalam (1). Selesai (Agar ini berfungsi sebagai argumen yang lebih formal akan membutuhkan beberapa pekerjaan, karena Anda harus menunjukkan bahwa istilah yang tersisa di Fakta 2 tidak menjadi cukup besar untuk menyebabkan masalah ketika dibawa ke kekuasaan . Tapi ini intuisi daripada bukti formal.)n

[Atau, ambil saja deret Taylor untuk ke urutan pertama. Pendekatan mudah kedua adalah dengan mengambil ekspansi binomial dari dan mengambil batas istilah demi istilah, menunjukkannya memberikan syarat dalam seri untuk .]exp(x/n)(1+x/n)nexp(x/n)

Jadi jika , ganti saja .ex=limn(1+x/n)nx=1

Segera, kami mendapatkan hasil di bagian atas jawaban ini,limn(11/n)n=e1


Seperti gung tunjukkan dalam komentar, hasil dalam pertanyaan Anda adalah asal dari aturan bootstrap 632

mis. lihat

Efron, B. dan R. Tibshirani (1997),
"Peningkatan Validasi Lintas: Metode .632+ Bootstrap,"
Jurnal Asosiasi Statistik Amerika Vol. 92, No. 438. (Jun), hlm. 548-560


41

Lebih tepatnya, setiap sampel bootstrap (atau bagged tree) akan berisi sampel.11e0.632

Mari kita bahas bagaimana bootstrap bekerja. Kami memiliki sampel asli dengan item di dalamnya. Kami menarik item dengan penggantian dari set asli ini sampai kami memiliki set ukuran lain .x1,x2,xnnn

Dari itu, maka kemungkinan bahwa memilih salah satu item (katakanlah, ) pada undian pertama adalah . Oleh karena itu, kemungkinan tidak memilih item itu adalah . Itu hanya untuk pengundian pertama; ada total draw, semuanya independen, sehingga kemungkinan tidak pernah memilih item ini pada draw adalah .x11n11nn(11n)n

Sekarang, mari kita pikirkan apa yang terjadi ketika menjadi lebih besar dan lebih besar. Kita dapat mengambil batas saat menuju tak terhingga, menggunakan trik kalkulus yang biasa (atau Wolfram Alpha): nn

limn(11n)n=1e0.368

Itu kemungkinan item tidak dipilih. Kurangi dari satu untuk menemukan probabilitas item yang dipilih, yang memberi Anda 0,632.


5

Sampling dengan penggantian dapat dimodelkan sebagai urutan uji coba binomial di mana "kesuksesan" adalah contoh yang dipilih. Untuk dataset asli dari instance, probabilitas "sukses" adalah , dan probabilitas "kegagalan" adalah . Untuk ukuran sampel , peluang memilih instance tepat kali diberikan oleh distribusi binomial:n1/n(n1)/nbx

P(x,b,n)=(1n)x(n1n)bx(bx)

Dalam kasus spesifik sampel bootstrap, ukuran sampel sama dengan jumlah instance . Dengan membiarkan mendekati tak terhingga, kita mendapatkan:bnn

limn(1n)x(n1n)nx(nx)=1ex!

Jika dataset asli kami besar, kami dapat menggunakan rumus ini untuk menghitung probabilitas bahwa instance dipilih tepat kali dalam sampel bootstrap. Untuk , probabilitasnya adalah , atau kira-kira . Dengan demikian probabilitas contoh yang diambil setidaknya satu kali adalah .xx=01/e0.36810.368=0.632

Tidak perlu dikatakan lagi, saya dengan susah payah menurunkan ini menggunakan pena dan kertas, dan bahkan tidak mempertimbangkan untuk menggunakan Wolfram Alpha.


4

Hanya dengan menambahkan jawaban @ retsreg, ini juga dapat ditunjukkan dengan mudah melalui simulasi numerik di R:

N <- 1e7 # number of instances and sample size
bootstrap <- sample(c(1:N), N, replace = TRUE)
round((length(unique(bootstrap))) / N, 3)
## [1] 0.632

1

Ini dapat dengan mudah dilihat dengan menghitung. Berapa total sampel yang mungkin? n ^ n. Berapa banyak yang TIDAK mengandung nilai tertentu? (n-1) ^ n. Probabilitas sampel yang tidak memiliki nilai spesifik - (1-1 / n) ^ n, yaitu sekitar 1/3 dalam batas.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.