Asumsi tentang estimasi bootstrap ketidakpastian

62

Saya menghargai kegunaan bootstrap dalam memperoleh estimasi ketidakpastian, tetapi satu hal yang selalu mengganggu saya adalah distribusi yang sesuai dengan estimasi tersebut adalah distribusi yang ditentukan oleh sampel. Secara umum, sepertinya ide yang buruk untuk percaya bahwa frekuensi sampel kami terlihat persis seperti distribusi yang mendasarinya, jadi mengapa itu masuk akal / dapat diterima untuk mendapatkan estimasi ketidakpastian berdasarkan distribusi di mana frekuensi sampel menentukan distribusi yang mendasarinya?

Di sisi lain, ini mungkin tidak lebih buruk (mungkin lebih baik) daripada asumsi distribusi lain yang biasanya kita buat, tapi saya masih ingin memahami pembenarannya sedikit lebih baik.

bootstrap uncertainty

— pengguna4733
sumber

3

Ada beberapa pertanyaan terkait yang mungkin ingin Anda selidiki. Beberapa tercantum pada margin samping halaman ini. Berikut ini adalah salah satu tentang kapan bootstrap gagal dan apa artinya gagal.

— kardinal

55

Ada beberapa cara yang bisa diterapkan bootstrap. Dua pendekatan paling mendasar adalah apa yang dianggap sebagai bootstrap "nonparametric" dan "parametric". Yang kedua mengasumsikan bahwa model yang Anda gunakan (pada dasarnya) benar.

Mari kita fokus pada yang pertama. Kita akan berasumsi bahwa Anda memiliki sampel acak didistribusikan sesuai dengan fungsi distribusi . (Dengan asumsi sebaliknya memerlukan pendekatan yang dimodifikasi.) Biarkan menjadi distribusi kumulatif empiris fungsi. Banyak motivasi untuk bootstrap berasal dari beberapa fakta. $X_1, X_2, \ldots, X_n$ $F$ $\hat{F}_n(x) = n^{-1} \sum_{i=1}^n \mathbf{1}(X_i \leq x)$

Ketidaksamaan Dvoretzky – Kiefer – Wolfowitz

P (sup_{x \in R} | {\hat{F}}_{n} (x) - F (x) | > ε) \leq 2 e^{- 2 n ε^{2}} .

$\renewcommand{\Pr}{\mathbb{P}} \Pr\big( \textstyle\sup_{x \in \mathbb{R}} \,|\hat{F}_n(x) - F(x)| > \varepsilon \big) \leq 2 e^{-2n \varepsilon^2} \> .$

Apa ini menunjukkan bahwa fungsi distribusi empiris konvergen seragam dengan fungsi distribusi yang benar secara eksponensial cepat dalam probabilitas. Memang, ketidaksetaraan ini ditambah dengan lemma Borel-Cantelli segera menunjukkan bahwa hampir pasti. $\sup_{x \in \mathbb{R}} \,|\hat{F}_n(x) - F(x)| \to 0$

Tidak ada kondisi tambahan pada bentuk untuk menjamin konvergensi ini. $F$

Secara heuristik, jika kita tertarik pada beberapa fungsional dari fungsi distribusi yang halus , maka kita berharap dekat dengan . $T(F)$ $T(\hat{F}_n)$ $T(F)$

(Searah) Ketidakcocokan $\hat{F}_n(x)$

Dengan linearitas harapan sederhana dan definisi , untuk setiap , $\hat{F}_n(x)$ $x \in \mathbb{R}$

E_{F} {\hat{F}}_{n} (x) = F (x) .

$\newcommand{\e}{\mathbb{E}} \e_F \hat{F}_n(x) = F(x) \>.$

Misalkan kita tertarik pada mean . Kemudian ketidakberpihakan ukuran empiris meluas ke ketidakberpihakan fungsi linier dari ukuran empiris. Jadi, $\mu = T(F)$

E_{F} T ({\hat{F}}_{n}) = E_{F} {\bar{X}}_{n} = μ = T (F) .

$\e_F T(\hat{F}_n) = \e_F \bar{X}_n = \mu = T(F) \> .$

Jadi benar rata-rata dan karena dengan cepat mendekati , maka (heuristically), dengan cepat mendekati . $T(\hat{F}_n)$ $\hat{F_n}$ $F$ $T(\hat{F}_n)$ $T(F)$

Untuk membangun interval kepercayaan ( yang pada dasarnya adalah tentang bootstrap ), kita dapat menggunakan teorema limit pusat, konsistensi kuantil empiris dan metode delta sebagai alat untuk berpindah dari fungsi linier sederhana ke statistik minat yang lebih rumit. .

Referensi yang bagus

B. Efron, metode Bootstrap: Lain melihat pisau lipat , Ann. Stat. , vol. 7, tidak. 1, 1–26.
B. Efron dan R. Tibshirani, Pengantar Bootstrap , Chapman-Hall, 1994.
GA Young dan RL Smith, Essentials of Inference Statistik , Cambridge University Press, 2005, Bab 11 .
AW van der Vaart, Statistik Asimptotik , Cambridge University Press, 1998, Bab 23 .
P. Bickel dan D. Freedman, Beberapa teori asimptotik untuk bootstrap . Ann. Stat. , vol. 9, tidak. 6 (1981), 1196-1217.

— kardinal
sumber

Sangat bagus, @ kardinal (+1).

Penjelasan yang jelas, referensi diberikan, jawaban yang sangat baik.

— Yohanzabo

hanya berpikir, kondisi bahwa adalah "sampel acak" dari sebenarnya adalah tempat di mana hal-hal rusak. Misalnya, menggunakan sampel dari populasi facebook. Jika Anda ingin menyimpulkan tentang pengguna facebook, bootstrap akan berfungsi. Jika Anda ingin menyimpulkan tentang populasi umum, bootstrap tidak akan membantu di sini, karena yang dikonvergensi bukanlah distribusi minat.

X_{i}

$X_i$

F

$F$

F (x)

$F(x)$

— probabilityislogic

12

Berikut adalah pendekatan berbeda untuk memikirkannya:

Mulailah dengan teori di mana kita mengetahui distribusi yang sebenarnya, kita dapat menemukan properti statistik sampel dengan mensimulasikan dari distribusi yang sebenarnya. Ini adalah bagaimana Gosset mengembangkan t-distribusi dan uji-t, dengan mengambil sampel dari normals yang diketahui dan menghitung statistik. Ini sebenarnya adalah bentuk bootstrap parametrik. Perhatikan bahwa kami mensimulasikan untuk menemukan perilaku statistik (kadang-kadang relatif terhadap parameter).

Sekarang, bagaimana jika kita tidak mengetahui distribusi populasi, kita memiliki perkiraan distribusi dalam distribusi empiris dan kita dapat mengambil sampel dari itu. Dengan mengambil sampel dari distribusi empiris (yang diketahui) kita dapat melihat hubungan antara sampel bootstrap dan distribusi empiris (populasi untuk sampel bootstrap). Sekarang kami menyimpulkan bahwa hubungan dari sampel bootstrap ke distribusi empiris adalah sama dengan dari sampel ke populasi yang tidak diketahui. Tentu saja seberapa baik hubungan ini diterjemahkan akan tergantung pada seberapa representatif sampel dari populasi.

Ingatlah bahwa kita tidak menggunakan sarana sampel bootstrap untuk memperkirakan rata-rata populasi, kami menggunakan rata-rata sampel untuk itu (atau apa pun statistik minat). Tapi kami menggunakan sampel bootstrap untuk memperkirakan properti (spread, bias) dari proses pengambilan sampel. Dan menggunakan sampling dari populasi yang tahu (yang kami harap mewakili populasi yang diminati) untuk mempelajari efek pengambilan sampel yang masuk akal dan jauh lebih tidak melingkar.

— Greg Snow
sumber

8

Trik utama (dan sengatan) dari bootstrap adalah bahwa itu adalah teori asimptotik: jika Anda memiliki sampel tak terbatas untuk memulai, distribusi empiris akan menjadi sangat dekat dengan distribusi aktual sehingga perbedaannya dapat diabaikan.

Sayangnya, bootstrap sering diterapkan dalam ukuran sampel kecil. Perasaan umum adalah bahwa bootstrap telah terbukti bekerja dalam beberapa situasi yang sangat non-asimptotik, tetapi tetap hati-hati. Jika sampleize Anda terlalu kecil, Anda sebenarnya bekerja secara kondisional pada sampel Anda menjadi 'representasi yang baik' dari distribusi yang sebenarnya, yang mengarah ke penalaran dengan mudah di lingkaran :-)

— Nick Sabbe
sumber

semacam itulah yang saya pikirkan, tetapi ada sesuatu yang melingkar tentang alasan ini. Saya bukan ahli statistik, tetapi menurut saya inferensi statistik berfungsi ketika estimator Anda bertemu dengan cepat, jadi bahkan jika sampel Anda belum menyatu pada distribusi, kesimpulan Anda tetap masuk akal. Dalam hal ini, kami mengandalkan seluruh distribusi empiris untuk menyatu dengan distribusi aktual. Mungkin ada teorema yang mengatakan bahwa beberapa estimasi bootstrap bertemu dengan cepat, tetapi saya biasanya melihat bootstrap diterapkan tanpa menarik teorema tersebut.

— user4733

4

Alasan melingkar yang jelas adalah mengapa ia dijuluki bootstrap. Rasanya seperti orang berusaha mengangkat diri dengan tali sepatu mereka sendiri. Kemudian Efron menunjukkan bahwa itu benar-benar berhasil.

— Greg Snow

Jika ukuran sampel sangat kecil, Anda memerlukan banyak kepercayaan apa pun metode yang Anda gunakan ...

— kjetil b halvorsen

5

Saya berpendapat bukan dari perspektif "tanpa gejala, distribusi empiris akan dekat dengan distribusi aktual" (yang, tentu saja, sangat benar), tetapi dari "perspektif jangka panjang". Dengan kata lain, dalam kasus tertentu, distribusi empiris yang berasal dari bootstrap akan dimatikan (kadang-kadang bergeser terlalu jauh, kadang-kadang bergeser terlalu jauh, terkadang terlalu condong seperti ini, kadang terlalu condong seperti itu), tetapi rata - rata akan menjadi pendekatan yang baik untuk distribusi aktual. Demikian pula, perkiraan ketidakpastian Anda yang berasal dari distribusi bootstrap akan dimatikan dalam kasus tertentu, tetapi sekali lagi, rata-rata, mereka akan (kurang-lebih) benar.

— Wolfgang
sumber