Benarkah bootstrap persentil tidak boleh digunakan?

31

Dalam catatan OpenCourseWare MIT untuk 18,05 Pengantar Probabilitas dan Statistik, Musim Semi 2014 (saat ini tersedia di sini ), ini menyatakan:

Metode persentil bootstrap menarik karena kesederhanaannya. Namun itu tergantung pada distribusi bootstrap dari berdasarkan sampel tertentu yang merupakan perkiraan yang baik untuk distribusi sebenarnya dari . Rice mengatakan tentang metode persentil, "Meskipun persamaan langsung kuantil dari distribusi sampling bootstrap ini dengan batas kepercayaan mungkin awalnya tampak menarik, alasannya agak kabur." [2] Singkatnya, jangan gunakan metode persentil bootstrap . Gunakan bootstrap empiris sebagai gantinya (kami telah menjelaskan keduanya dengan harapan Anda tidak akan membingungkan bootstrap empiris untuk bootstrap persentil). $\bar{x}^{*}$ $\bar{x}$

[2] John Rice, Statistik Matematika dan Analisis Data , edisi ke-2, hal. 272

Setelah sedikit mencari online, ini adalah satu-satunya kutipan yang saya temukan yang langsung menyatakan bahwa bootstrap persentil tidak boleh digunakan.

Apa yang saya ingat membaca dari teks Prinsip dan Teori untuk Penambangan Data dan Pembelajaran Mesin oleh Clarke et al. adalah bahwa pembenaran utama untuk bootstrap adalah fakta bahwa

\frac{1}{n} \sum_{i = 1}^{n} {\hat{F}}_{n} (x) \overset{p}{\to} F (x)

$\dfrac{1}{n}\sum_{i=1}^{n}\hat{F}_n(x) \overset{p}{\to} F(x)$ mana

{\hat{F}}_{n}

$\hat{F}_n$ adalah CDF empiris. (Saya tidak ingat detail lebih dari ini.)

Apakah benar bahwa metode bootstrap persentil tidak boleh digunakan? Jika demikian, alternatif apa yang ada ketika $F$ belum tentu diketahui (yaitu, tidak cukup informasi yang tersedia untuk melakukan bootstrap parametrik)?

Memperbarui

Karena klarifikasi telah diminta, "bootstrap empiris" dari catatan MIT ini mengacu pada prosedur berikut: mereka menghitung $\delta_1 = (\hat{\theta}^{*}-\hat{\theta})_{\alpha/2}$ dan $\delta_2 = (\hat{\theta}^{*}-\hat{\theta})_{1-\alpha/2}$ dengan $\hat{\theta}^{*}$ perkiraan bootstrap dari $\theta$ dan $\hat{\theta}$ taksiran sampel lengkap dari $\theta$ , dan perkiraan interval kepercayaan yang dihasilkan adalah $[\hat{\theta}-\delta_2, \hat{\theta} - \delta_1]$ .

Intinya, ide utamanya adalah ini: bootstrap empiris memperkirakan jumlah yang proporsional dengan perbedaan antara estimasi titik dan parameter aktual, yaitu, , dan menggunakan perbedaan ini untuk menghasilkan yang lebih rendah dan batas CI atas. $\hat{\theta}-\theta$

"Bootstrap persentil" mengacu pada yang berikut: gunakan sebagai interval kepercayaan untuk . Dalam situasi ini, kami menggunakan bootstrap untuk menghitung estimasi parameter bunga dan mengambil persentil perkiraan ini untuk interval kepercayaan. $[\hat{\theta}^*_{\alpha/2}, \hat{\theta}^*_{1-\alpha/2}]$ $\theta$

confidence-interval bootstrap

— Klarinetis
sumber

2

Saya sangat mengedit pembaruan Anda. Harap periksa apakah hasil edit saya masuk akal. Kutipan Anda dari buku Efron membingungkan karena apa yang dijelaskan Efron tidak sesuai dengan apa yang disebut MIT sebagai "bootstrap empiris". Jadi saya baru saja meninggalkan deskripsi tentang apa yang dilakukan catatan MIT. BTW, saya bingung tentang satu hal dalam deskripsi mereka tentang "bootstrap empiris": di bagian paling atas halaman 6 dikatakan "Sejak berada pada persentil ke-90 ..." - Saya tidak bisa mengerti ini. Jelas dari contoh bahwa sisi kiri CI diberikan dengan mengurangi persentil ke-90, yaitu .

δ_{.1}^{*}

$\delta_{.1}^*$

δ_{2}

$\delta_2$

— Amoeba berkata Reinstate Monica

2

@amoeba hasil edit Anda benar. Terima kasih telah membantu. Saya pikir ada beberapa masalah dengan catatan MIT; deskripsi mereka tentang kesulitan dengan bootstrap persentil tidak begitu jelas dan argumen mereka terhadap mereka terutama merupakan daya tarik bagi pihak berwenang. Saya tidak dapat mereproduksi contoh angka terakhir mereka terhadap bootstrap persentil. Jangan berpikir bahwa mereka mengerjakan beberapa perincian sebaik yang kami miliki saat kami membahas pertanyaan yang bermanfaat ini, dan dengan demikian teks mereka mungkin memiliki beberapa kekurangan, seperti yang Anda tunjukkan.

— EdM

Melihat catatan MIT itu, saya tidak melihat bagaimana penulis mendapatkan interval kepercayaan di bagian 9 "Metode persentasi bootstrap (tidak boleh digunakan)" dari [37,4, 42,4]. Tampaknya sampel yang mereka gunakan tidak sama dengan yang ada di bagian 6, yang mereka buat perbandingan. Jika kita mengambil sampel untuk δ ∗ = x ∗ - x dilaporkan di bagian bawah halaman 5 dan menambahkan kembali rata-rata sampel 40,3 dan mengambil CI, batas yang saya dapatkan adalah [38,9, 41,9] yang memiliki lebar sama 3 sebagai batas yang mereka laporkan dalam bagian 6 dari [38.7, 41.7].

— Bingung

21

Ada beberapa kesulitan yang umum untuk semua perkiraan bootstrap nonparametric interval kepercayaan (CI), beberapa yang lebih merupakan masalah dengan "empiris" (disebut "dasar" dalam boot.ci()fungsi bootpaket R dan dalam Ref. 1 ) dan perkiraan CI "persentil" (seperti yang dijelaskan dalam Pustaka 2 ), dan beberapa yang dapat diperburuk dengan CI persentil.

TL; DR : Dalam beberapa kasus, perkiraan bootstrap CI perkiraan mungkin berfungsi dengan baik, tetapi jika asumsi tertentu tidak berlaku maka CI persentase mungkin merupakan pilihan terburuk, dengan bootstrap empiris / dasar terburuk berikutnya. Perkiraan bootstrap CI lainnya bisa lebih andal, dengan jangkauan yang lebih baik. Semua bisa bermasalah. Melihat plot diagnostik, seperti biasa, membantu menghindari potensi kesalahan yang timbul dengan hanya menerima output dari rutin perangkat lunak.

Pengaturan bootstrap

Umumnya mengikuti terminologi dan argumen Ref. 1 , kita memiliki sampel data diambil dari variabel-variabel acak independen dan terdistribusi secara identik berbagi fungsi distribusi kumulatif . Fungsi distribusi empiris (EDF) dibangun dari sampel data . Kami tertarik pada karakteristik dari populasi, diperkirakan oleh statistik yang nilainya dalam sampel adalah . Kami ingin mengetahui seberapa baik estimasi , misalnya, distribusi . $y_1, ..., y_n$ $Y_i$ $F$ $\hat F$ $\theta$ $T$ $t$ $T$ $\theta$ $(T - \theta)$

Bootstrap nonparametrik menggunakan sampling dari EDF untuk meniru sampling dari , mengambil sampel masing-masing ukuran dengan penggantian dari . Nilai yang dihitung dari sampel bootstrap dilambangkan dengan "*". Misalnya, statistik dihitung pada sampel bootstrap j memberikan nilai . $\hat F$ $F$ $R$ $n$ $y_i$ $T$ $T_j^*$

CI bootstrap empiris / dasar versus persentil

Bootstrap empiris / dasar menggunakan distribusi antara sampel bootstrap dari untuk memperkirakan distribusi dalam populasi yang dijelaskan oleh itu sendiri. Perkiraan CI berdasarkan pada distribusi , di mana adalah nilai statistik dalam sampel asli. $(T^*-t)$ $R$ $\hat F$ $(T-\theta)$ $F$ $(T^*-t)$ $t$

Pendekatan ini didasarkan pada prinsip dasar bootstrap ( Ref. 3 ):

Populasi adalah sampel karena sampel adalah sampel bootstrap.

Bootstrap persentil malahan menggunakan kuantil dari nilai sendiri untuk menentukan CI. Perkiraan ini bisa sangat berbeda jika ada bias atau bias dalam distribusi . $T_j^*$ $(T-\theta)$

Katakan bahwa ada bias diamati sehingga: $B$

{\bar{T}}^{*} = t + B,

$\bar T^*=t+B,$

di mana adalah rata-rata dari . Untuk konkret, katakan bahwa persentil ke-5 dan ke-95 dari dinyatakan sebagai dan , di mana adalah rata-rata dari sampel bootstrap dan masing-masing positif dan berpotensi berbeda untuk memungkinkan kemiringan. Estimasi berbasis persentil CI ke-5 dan ke-95 akan secara langsung diberikan masing-masing oleh: $\bar T^*$ $T_j^*$ $T_j^*$ $\bar T^*-\delta_1$ $\bar T^*+\delta_2$ $\bar T^*$ $\delta_1,\delta_2$

{\bar{T}}^{*} - δ_{1} = t + B - δ_{1}; {\bar{T}}^{*} + δ_{2} = t + B + δ_{2} .

$\bar T^*-\delta_1=t+B-\delta_1; \bar T^*+\delta_2=t+B+\delta_2.$

Perkiraan CI persentil ke-5 dan ke-95 dengan metode bootstrap empiris / dasar adalah masing-masing ( Pustaka 1 , persamaan 5.6, halaman 194):

2 t - ({\bar{T}}^{*} + δ_{2}) = t - B - δ_{2}; 2 t - ({\bar{T}}^{*} - δ_{1}) = t - B + δ_{1} .

$2t-(\bar T^*+\delta_2) = t-B-\delta_2; 2t-(\bar T^*-\delta_1) = t-B+\delta_1.$

Jadi CI berbasis persentil mendapatkan bias yang salah dan membalik arah dari posisi yang berpotensi asimetris dari batas kepercayaan di sekitar pusat yang bias ganda . Persentil CI dari bootstrap dalam kasus seperti itu tidak mewakili distribusi . $(T-\theta)$

Perilaku ini diilustrasikan dengan baik di halaman ini , untuk bootstrap statistik yang sangat negatif sehingga estimasi sampel asli di bawah 95% CI berdasarkan metode empiris / dasar (yang secara langsung mencakup koreksi bias yang sesuai). 95% CI berdasarkan metode persentil, disusun di sekitar pusat yang bias dua kali lipat negatif, sebenarnya keduanya di bawah bahkan estimasi titik bias negatif dari sampel asli!

Haruskah bootstrap persentil tidak pernah digunakan?

Itu mungkin berlebihan atau meremehkan, tergantung pada perspektif Anda. Jika Anda dapat mendokumentasikan bias dan kemiringan minimal, misalnya dengan memvisualisasikan distribusi dengan histogram atau plot kerapatan, bootstrap persentil harus pada dasarnya memberikan CI yang sama dengan CI empiris / dasar. Ini mungkin keduanya lebih baik daripada perkiraan normal sederhana untuk CI. $(T^*-t)$

Namun, tidak ada pendekatan yang menyediakan akurasi dalam cakupan yang dapat disediakan oleh pendekatan bootstrap lainnya. Efron sejak awal mengakui keterbatasan potensial dari CI persentil tetapi mengatakan: "Sebagian besar kita akan puas membiarkan berbagai tingkat keberhasilan dari contoh-contoh itu berbicara sendiri." ( Ref. 2 , halaman 3)

Pekerjaan selanjutnya, dirangkum misalnya oleh DiCiccio dan Efron ( Ref. 4 ), mengembangkan metode yang "meningkatkan dengan urutan besarnya pada keakuratan interval standar" yang disediakan oleh metode empiris / dasar atau persentil. Dengan demikian orang mungkin berpendapat bahwa metode empiris / dasar maupun persentil tidak boleh digunakan, jika Anda peduli dengan keakuratan intervalnya.

Dalam kasus-kasus ekstrem, misalnya pengambilan sampel langsung dari distribusi lognormal tanpa transformasi, tidak ada perkiraan CI yang di-boot-up mungkin dapat diandalkan, seperti yang dicatat oleh Frank Harrell .

Apa yang membatasi keandalan CI ini dan bootstrap lainnya?

Beberapa masalah cenderung membuat CI yang bootstrap tidak dapat diandalkan. Beberapa berlaku untuk semua pendekatan, yang lain dapat dikurangi dengan pendekatan selain metode empiris / dasar atau persentil.

Pertama, umum, masalah adalah seberapa baik distribusi empiris mewakili distribusi penduduk . Jika tidak, maka tidak ada metode bootstrap yang dapat diandalkan. Khususnya, bootstrap untuk menentukan apa pun yang dekat dengan nilai ekstrim dari suatu distribusi bisa tidak dapat diandalkan. Masalah ini dibahas di tempat lain di situs ini, misalnya di sini dan di sini . Beberapa, nilai diskrit, tersedia dalam ekor untuk sampel tertentu mungkin tidak mewakili ekor kontinu dengan sangat baik. Kasus ekstrem namun ilustratif mencoba menggunakan bootstrap untuk memperkirakan statistik urutan maksimum sampel acak dari seragam $\hat F$ $F$ $\hat F$ $F$ $\;\mathcal{U}[0,\theta]$ distribusi, seperti yang dijelaskan dengan baik di sini . Perhatikan bahwa bootstrap 95% atau 99% CI dengan sendirinya berada di belakang distribusi dan dengan demikian dapat menderita masalah seperti itu, terutama dengan ukuran sampel kecil.

Kedua, tidak ada jaminan bahwa sampel dari setiap kuantitas dari akan memiliki distribusi yang sama seperti sampel dari . Namun asumsi itu mendasari prinsip dasar bootstrap. Kuantitas dengan properti yang diinginkan disebut penting . Seperti yang dijelaskan AdamO : $\hat F$ $F$

Ini berarti bahwa jika parameter yang mendasarinya berubah, bentuk distribusi hanya bergeser oleh konstanta, dan skala tidak selalu berubah. Ini asumsi yang kuat!

Misalnya, jika ada bias, penting untuk mengetahui bahwa pengambilan sampel dari sekitar sama dengan pengambilan sampel dari sekitar . Dan ini adalah masalah khusus dalam pengambilan sampel nonparametrik; sebagai Ref. 1 meletakkannya di halaman 33: $F$ $\theta$ $\hat F$ $t$

Dalam masalah nonparametrik situasinya lebih rumit. Sekarang tidak mungkin (tetapi tidak sepenuhnya mustahil) bahwa kuantitas apa pun dapat menjadi sangat penting.

Jadi yang terbaik yang biasanya mungkin adalah perkiraan. Masalah ini, bagaimanapun, seringkali dapat diatasi secara memadai. Mungkin untuk memperkirakan seberapa dekat kuantitas sampel dengan pivotal, misalnya dengan pivot plot seperti yang direkomendasikan oleh Canty et al . Ini dapat menampilkan bagaimana distribusi estimasi bootstrap berbeda dengan , atau seberapa baik transformasi memberikan kuantitas yang sangat penting. Metode untuk meningkatkan CI bootstrap dapat mencoba untuk menemukan transformasi sedemikian sehingga lebih dekat dengan penting untuk memperkirakan CI dalam skala yang ditransformasikan, kemudian mengubah kembali ke skala semula. $(T^*-t)$ $t$ $h$ $(h(T^*)-h(t))$ $h$ $(h(T^*)-h(t))$

The boot.ci()Fungsi menyediakan studentized bootstrap CI (disebut "bootstrap- t " oleh DiCiccio dan Efron ) dan CI (bias diperbaiki dan dipercepat, di mana "percepatan" penawaran dengan condong) yang "orde kedua akurat" di bahwa perbedaan antara cakupan yang diinginkan dan dicapai (mis., 95% CI) ada di urutan , dibandingkan hanya urutan pertama yang akurat (urutan ) untuk metode empiris / dasar dan persentil ( Ref 1 , hlm. 212-3; ref. 4 ). Metode-metode ini, bagaimanapun, memerlukan melacak varians dalam masing-masing sampel yang di-bootstrap, bukan hanya nilai individual dari $BC_a$ $\alpha$ $n^{-1}$ $n^{-0.5}$ $T_j^*$ digunakan oleh metode yang lebih sederhana.

Dalam kasus ekstrim, seseorang mungkin perlu menggunakan bootstrap dalam sampel bootstrap sendiri untuk memberikan penyesuaian interval kepercayaan yang memadai. "Double Bootstrap" ini dijelaskan dalam Bagian 5.6 dari Ref. 1 , dengan bab-bab lain dalam buku itu menyarankan cara-cara untuk meminimalkan tuntutan komputasi ekstremnya.

— EdM
sumber

1

Saya tidak begitu mengerti mengapa Anda mengatakan bahwa "bootstrap empiris" akan "jauh lebih tidak sensitif" terhadap penyimpangan dari distribusi populasi. Bukankah bootstrap persentil dan "bootstrap empiris" ini menggunakan jumlah yang persis sama dari distribusi bootstrap? Saya pikir satu-satunya perbedaan adalah jika distribusi bootstrap asimetris di sekitar mean sampel maka interval dari kedua pendekatan ini akan dibalik. Seperti dijelaskan di sini: en.wikipedia.org/wiki/… ("basic" vs "persentil").

— Amuba kata Reinstate Monica

1

@amoeba mereka berbeda dalam cara mereka menangani bias dalam perkiraan bootstrap, bukan hanya membalik interval. Jawaban ini perlu lebih banyak pekerjaan untuk memisahkan masalah bootstrap empiris vs persentil dari masalah yang berkaitan dengan ekor distribusi, yang saya agak bingung di sini dan yang saya harap akan klarifikasi dalam beberapa hari.

— EdM

1

Saya tidak mengungguli jawaban ini karena berdasarkan referensi yang diberikan dan alasan (sangat masuk akal) yang disajikan: " bootstrap persentil tidak boleh digunakan " hanyalah pernyataan berlebihan, bukan "sedikit". Ya, jika kita bisa, kita harus menggunakan beberapa bentuk metode bootstrap yang dikoreksi bias tetapi tidak, lebih baik gunakan bootstrap persentil untuk mendapatkan perkiraan CI yang agak tidak efisien daripada menempelkan 2SE di sekitar rata-rata dan berpikir kita menemukan Amerika. (Saya sebagian besar setuju dengan apa yang dikatakan bagian utama dari jawaban, hanya saja tidak paragraf terakhir karena saya merasa itu membuka pintu untuk salah tafsir.)

— usεr11852 mengatakan Reinstate Monic

1

Secara substansial direorganisasi dan diperbaiki, sebagian sebagai tanggapan terhadap komentar.

— EdM

1

@Confounded apa yang Anda tulis setara dengan formulir yang saya berikan untuk bootstrap empiris / dasar. Perhatikan bahwa adalah , di mana adalah persentil teratas yang diminati di antara sampel bootstrap. Jadi . Saya menggunakan untuk dan menyatakan sebagai bootstrap berarti plus offset .

U^{*}

$U^*$

{\hat{θ}}_{U}^{*} - \hat{θ}

$\hat\theta^*_U - \hat\theta$

{\hat{θ}}_{U}^{*}

$\hat\theta^*_U$

\hat{θ} - U^{*} = \hat{θ} - ({\hat{θ}}_{U}^{*} - \hat{θ}) = 2 \hat{θ} - {\hat{θ}}_{U}^{*}

$\hat\theta - U^* = \hat\theta -(\hat\theta^*_U - \hat\theta)=2 \hat\theta - \hat\theta^*_U$

t

$t$

\hat{θ}

$\hat\theta$

{\hat{θ}}_{U}^{*}

$\hat\theta^*_U$

{\bar{T}}^{*}

$\bar T^*$

δ_{2}

$\delta_2$

— EdM

8

Beberapa komentar tentang terminologi berbeda antara MIT / Rice dan buku Efron

Saya pikir jawaban EdM melakukan pekerjaan yang luar biasa dalam menjawab pertanyaan awal OPs, sehubungan dengan catatan kuliah MIT. Namun, OP juga mengutip buku dari Efrom (2016) Computer Age Statistics Inference yang menggunakan definisi yang sedikit berbeda yang dapat menyebabkan kebingungan.

Bab 11 - Contoh korelasi sampel skor siswa

Contoh ini menggunakan sampel dengan parameter yang menarik adalah korelasinya. Dalam sampel itu diamati sebagai . Efron kemudian melakukan replikasi bootstrap non parametrik untuk korelasi sampel skor siswa dan plot histogram hasil (halaman 186) $\hat \theta = 0.498$ $B = 2000$ $\hat \theta^*$

Bootstrap interval standar

Dia kemudian mendefinisikan bootstrap interval Standar berikut :

\hat{θ} \pm 1.96 \hat{s e}

$\hat \theta \pm 1.96 \hat{se}$

Untuk cakupan 95% di mana dianggap sebagai kesalahan standar bootstrap: , juga disebut deviasi standar empiris dari nilai-nilai bootstrap. $\hat{se}$ $se_{boot}$

Standar deviasi empiris dari nilai-nilai bootstrap:

Biarkan sampel asli menjadi dan sampel bootstrap menjadi . Setiap sampel bootstrap menyediakan replikasi statistik bootstrap yang menarik: $\mathbf{x} = (x_1,x_2,...,x_n)$ $\mathbf{x^*} = (x_1^*,x_2^*,...,x_n^*)$ $b$

{\hat{θ}}^{* b} = s (x^{* b}) for b = 1, 2, . . ., B

$\hat \theta^{*b} = s(\mathbf{x}^{*b}) \ \text{ for } b = 1,2,...,B$

Perkiraan bootstrap yang dihasilkan dari kesalahan standar untuk adalah $\hat \theta$

{\hat{s e}}_{b o o t} = {[\sum_{b = 1}^{B} ({\hat{θ}}^{* b} - {\hat{θ}}^{*})^{2} / (B - 1)]}^{1 / 2}

$\hat{se}_{boot} = \left[ \sum_{b=1}^B (\hat \theta^{*b} - \hat \theta^{*})^2 / (B-1)\right]^{1/2}$

{\hat{θ}}^{*} = \frac{\sum_{b = 1}^{B} {\hat{θ}}^{* b}}{B}

$\hat \theta^{*} = \frac{\sum_{b=1}^B \hat \theta^{*b}}{B}$

Definisi ini tampaknya berbeda dengan yang digunakan dalam jawaban EdM:

Bootstrap empiris / dasar menggunakan distribusi antara sampel bootstrap dari untuk memperkirakan distribusi dalam populasi yang dijelaskan oleh itu sendiri. $(T^∗−t)$ $R$ $\hat F$ $(T−\theta)$ $F$

Bootstrap persentil

Di sini, kedua definisi tersebut tampaknya selaras. Dari Efron halaman 186:

The metode persentil menggunakan bentuk distribusi bootstrap untuk memperbaiki interval standar. Setelah menghasilkan replikasi kita kemudian menggunakan persentil dari distribusinya untuk menentukan batas kepercayaan persentil . $B$ $\hat \theta^{*1}, \hat \theta^{*2},...,\hat \theta^{*B}$

Dalam contoh ini, masing-masing adalah 0,118 dan 0,758.

Mengutip EdM:

Bootstrap persentil sebaliknya menggunakan kuantil dari nilai sendiri untuk menentukan CI. $T^∗_j$

Membandingkan metode standar dan persentil seperti yang didefinisikan oleh Efron

Berdasarkan definisinya sendiri, Efron berusaha keras untuk berpendapat bahwa metode persentil merupakan peningkatan. Untuk contoh ini, CI yang dihasilkan adalah:

Kesimpulan

Saya berpendapat bahwa pertanyaan awal OP sesuai dengan definisi yang diberikan oleh EdM. Pengeditan yang dilakukan oleh OP untuk memperjelas definisi selaras dengan buku Efron dan tidak persis sama untuk CI bootstrap empiri vs Standar.

Komentar diterima

— Xavier Bourret Sicotte
sumber

2

Terima kasih atas klarifikasi terminologisnya. Pada pandangan pertama, CI "boot interval standar" tampaknya mirip dengan CI "normal" yang diproduksi oleh boot.ci(), di mana mereka didasarkan pada perkiraan normal untuk kesalahan dan dipaksa untuk menjadi simetris tentang perkiraan sampel . Itu berbeda dari CI "empiris / dasar", yang seperti CI "persentil" memungkinkan asimetri. Saya terkejut pada perbedaan besar antara CI "empiris / dasar" dan "persentil" CI dalam menangani bias; Saya tidak terlalu memikirkan hal itu sampai saya mencoba menjawab pertanyaan ini.

θ

$\theta$

— EdM

Baru saja memeriksa manual untuk boot.ci(): "Interval normal juga menggunakan koreksi bias bootstrap." Sehingga sepertinya ada perbedaan dari "standard interval bootstrap" yang dijelaskan oleh Efron.

— EdM

Cukup adil - interval normal yang dijelaskan dalam buku ini adalah dasar dari mana ia membangun untuk pendekatan yang lebih baik dan lebih tepat (sampai ke BC dan BCa) sehingga masuk akal bahwa itu tidak diterapkan

— Xavier Bourret Sicotte

@ EDM dan Xavier: apakah Inferensi Statistik Usia Komputer menggambarkan CI "empiris / dasar" sama sekali? Jika demikian, bagaimana buku itu memanggil mereka? Jika tidak, bukankah itu aneh?

— Amuba kata Reinstate Monica

1

@amoeba tidak bisa kulihat pada pandangan pertama. Buku ini tersedia sebagai pdf untuk penggunaan pribadi. Seperti yang saya kemukakan dalam jawaban saya dan sebagaimana dicatat dalam buku ini, ada pilihan yang lebih baik daripada CI "empiris / dasar" dan "persentil" sehubungan dengan cakupan, jadi saya dapat melihat mengapa seseorang dihilangkan: tanpa bias dan dengan CI simetris, tidak ada banyak perbedaan di antara mereka. Saya tentu tidak bisa menyalahkan penemu bootstrap untuk menekankan metode CI awalnya, karena memang mengarah lebih langsung ke BC dan BCa daripada "empiris / dasar."

— EdM

5

Saya mengikuti panduan Anda: "Mencari jawaban yang berasal dari sumber yang kredibel dan / atau resmi."

Bootstrap ditemukan oleh Brad Efron. Saya pikir itu adil untuk mengatakan bahwa dia adalah ahli statistik terkemuka. Itu adalah fakta bahwa dia adalah seorang profesor di Stanford. Saya pikir itu membuat pendapatnya kredibel dan resmi.

Saya percaya bahwa Computer Age Statistics Inference oleh Efron dan Hastie adalah buku terbarunya dan karenanya harus mencerminkan pandangannya saat ini. Dari hal. 204 (11.7, catatan dan detail),

Interval kepercayaan bootstrap tidak tepat atau optimal, tetapi bertujuan untuk penerapan yang luas dikombinasikan dengan akurasi yang hampir tepat.

Jika Anda membaca Bab 11, "Interval Kepercayaan Bootstrap", ia memberikan 4 metode untuk membuat interval kepercayaan bootstrap. Yang kedua dari metode ini adalah (11.2) Metode Persentil. Metode ketiga dan keempat adalah varian pada metode persentil yang berupaya untuk memperbaiki apa yang digambarkan Efron dan Hastie sebagai bias dalam interval kepercayaan dan yang mereka berikan penjelasan teoretis.

Selain itu, saya tidak bisa memutuskan apakah ada perbedaan antara apa yang orang-orang MIT sebut bootstrap empiris CI dan CI persentil. Saya mungkin memiliki kentut otak, tetapi saya melihat metode empiris sebagai metode persentil setelah mengurangi jumlah yang tetap. Itu seharusnya tidak mengubah apa pun. Saya mungkin salah membaca, tetapi saya akan sangat berterima kasih jika seseorang dapat menjelaskan bagaimana saya salah memahami teks mereka.

Apapun, otoritas utama tampaknya tidak memiliki masalah dengan CI persentil. Saya juga berpikir komentarnya menjawab kritik terhadap bootstrap CI yang disebutkan oleh beberapa orang.

TAMBAHAN ADD ON

Pertama, setelah meluangkan waktu untuk mencerna bab MIT dan komentar, hal yang paling penting untuk dicatat adalah bahwa apa yang MIT sebut bootstrap empiris dan bootstrap persentil berbeda - Bootstrap empiris dan bootstrap persentil akan berbeda dalam apa yang mereka sebut empiris bootstrap akan menjadi interval sedangkan bootstrap persentil akan memiliki interval kepercayaan . Lebih lanjut saya berpendapat bahwa sesuai Efron-Hastie bootstrap persentil lebih kanonik. Kunci dari apa yang MIT sebut sebagai bootstrap empiris adalah dengan melihat distribusi . Tapi mengapa , mengapa tidak $[\bar{x*}-\delta_{.1},\bar{x*}-\delta_{.9}]$ $[\bar{x*}-\delta_{.9},\bar{x*}-\delta_{.1}]$
$\delta = \bar{x} - \mu$ $\bar{x} - \mu$ $\mu-\bar{x}$ . Masuk akal. Selanjutnya, delta untuk set kedua adalah bootstrap persentil yang kotor! Efron menggunakan persentil dan saya pikir distribusi cara yang sebenarnya harus paling mendasar. Saya akan menambahkan bahwa selain Efron dan Hastie dan kertas Efron 1979 disebutkan dalam jawaban lain, Efron menulis sebuah buku tentang bootstrap pada tahun 1982. Dalam semua 3 sumber ada menyebutkan bootstrap persentil, tetapi saya tidak menemukan apa yang disebutkan. orang MIT menyebut bootstrap empiris. Selain itu, saya cukup yakin bahwa mereka menghitung bootstrap persentil secara tidak benar. Di bawah ini adalah notebook R yang saya tulis.

Komitmen pada referensi MIT Pertama, mari kita masukkan data MIT ke dalam R. Saya melakukan pekerjaan cut dan paste sederhana dari sampel bootstrap mereka dan menyimpannya ke boot.txt.

Sembunyikan orig.boot = c (30, 37, 36, 43, 42, 43, 43, 46, 41, 42) boot = read.table (file = "boot.txt") berarti = as.numeric (lapply (boot (boot , berarti)) # lapply membuat daftar, bukan vektor. Saya menggunakannya SELALU untuk bingkai data. mu = mean (orig.boot) del = sort (berarti - mu) # perbedaan mu berarti del Dan selanjutnya

Sembunyikan mu - sort (del) [3] mu - sort (del) [18] Jadi kami mendapatkan jawaban yang sama dengan yang mereka lakukan. Khususnya saya memiliki persentil 10 dan 90 yang sama. Saya ingin menunjukkan bahwa kisaran dari persentil ke-10 hingga ke-90 adalah 3. Ini sama dengan yang dimiliki MIT.

Apa maksud saya?

Hide berarti sort (berarti) saya mendapatkan cara yang berbeda. Poin penting - 10 dan 90 saya berarti 38.9 dan 41.9. Inilah yang saya harapkan. Mereka berbeda karena saya mempertimbangkan jarak dari 40,3, jadi saya membalikkan urutan pengurangan. Perhatikan bahwa 40.3-38.9 = 1.4 (dan 40.3 - 1.6 = 38.7). Jadi apa yang mereka sebut bootstrap persentil memberikan distribusi yang tergantung pada cara aktual yang kita dapatkan dan bukan perbedaannya.

Titik Kunci Bootstrap empiris dan bootstrap persentil akan berbeda karena yang mereka sebut bootstrap empiris adalah interval [x ∗ ¯ − δ.1, x ∗ ¯ − δ.9] [x ∗ ¯ − δ.1, x ∗ ¯ − δ.9] sedangkan bootstrap persentil akan memiliki interval kepercayaan [x ∗ ¯ − δ.9, x ∗ ¯ − δ.1] [x ∗ ¯ − δ.9, x ∗ ¯ − δ.1 ] Biasanya mereka seharusnya tidak jauh berbeda. Saya memiliki pemikiran yang saya inginkan, tetapi saya bukan sumber pasti yang diminta OP. Eksperimen pemikiran - keduanya harus bertemu jika ukuran sampel meningkat. Perhatikan bahwa ada 2.102.0 sampel yang mungkin berukuran 10. Mari kita tidak menjadi gila, tetapi bagaimana jika kita mengambil 2000 sampel - ukuran yang biasanya dianggap cukup.

Sembunyikan set.seed (1234) # reproduceible boot.2k = matrix (NA, 10.2000) untuk (i in c (1: 2000)) {boot.2k [, i] = sampel (orig.boot, 10, ganti = T)} mu2k = sort (berlaku (boot.2k, 2, rata-rata)) Mari kita lihat mu2k

Sembunyikan rangkuman (mu2k) mean (mu2k) -mu2k [200] mean (mu2k) - mu2k [1801] Dan nilai aktual-

Sembunyikan mu2k [200] mu2k [1801] Jadi sekarang apa yang MIT sebut bootstrap empiris memberikan interval kepercayaan 80% dari [, 40,3 -1,87,40,3 +1,64] atau [38,43,41,94] dan distribusi persentil buruknya memberikan [38,5, 42]. Ini tentu saja masuk akal karena hukum dalam jumlah besar akan mengatakan dalam kasus ini bahwa distribusi harus menyatu dengan distribusi normal. Kebetulan, ini dibahas dalam Efron dan Hastie. Metode pertama yang mereka berikan untuk menghitung interval bootstrap adalah dengan menggunakan mu = / - 1,96 sd. Seperti yang mereka tunjukkan, untuk ukuran sampel yang cukup besar ini akan berfungsi. Mereka kemudian memberikan contoh yang n = 2000 tidak cukup besar untuk mendapatkan distribusi data yang mendekati normal.

Kesimpulan Pertama, saya ingin menyatakan prinsip yang saya gunakan untuk memutuskan pertanyaan tentang penamaan. "Ini pestaku, aku bisa menangis jika aku mau." Sementara awalnya diucapkan oleh Petula Clark, saya pikir itu juga berlaku struktur penamaan. Jadi dengan rasa hormat yang tulus kepada MIT, saya pikir Bradley Efron layak untuk menyebutkan berbagai metode bootstrap sesuai keinginannya. Apa yang dia lakukan ? Saya tidak dapat menemukan menyebutkan dalam Efron 'bootstrap empiris', hanya persentil. Jadi saya dengan rendah hati akan tidak setuju dengan Rice, MIT, dkk. Saya juga akan menunjukkan bahwa menurut hukum angka besar, seperti yang digunakan dalam kuliah MIT, empiris dan persentil harus menyatu dengan angka yang sama. Menurut selera saya, persentil bootstrap intuitif, dibenarkan, dan apa yang ada dalam pikiran penemu bootstrap. Saya akan menambahkan bahwa saya meluangkan waktu untuk melakukan ini hanya untuk membangun saya sendiri, bukan hal lain. Khususnya, Saya tidak menulis Efron, yang mungkin harus OP lakukan. Saya paling bersedia untuk dikoreksi.

— aginensky
sumber

3

"Kurasa adil untuk mengatakan bahwa dia ahli statistik terkemuka." - Ya saya akan mengatakan itu adil!

— Xavier Bourret Sicotte

Saya pikir apa yang disebut OP "dorongan empiris" adalah apa yang disebut Wikipedia "bootstrap dasar" di sini en.wikipedia.org/wiki/… . Ia menggunakan persentil yang sama dengan "bootstrap persentil", Anda benar, tetapi agak membaliknya. Apakah Efron dan Hastie memasukkan ini ke dalam 4 metode mereka? Bagaimana mereka menyebutnya?

— Amuba mengatakan Reinstate Monica

Saya mencoba mengklarifikasi hal ini dalam pertanyaan berdasarkan apa yang saya baca di catatan MIT. Beri tahu saya jika ada sesuatu yang tidak jelas (atau jika Anda memiliki waktu untuk memeriksa catatan itu sendiri, periksa pos saya untuk kebenaran).

— Clarinetist

@Xavier orang bisa membuat pernyataan pernyataan Efron saya diremehkan.

— aginensky

1

Pernyataan Anda bahwa "apa yang mereka sebut bootstrap empiris akan menjadi interval ," di mana adalah rata-rata perkiraan bootstrap, tidak benar dalam hal halaman MIT yang ditautkan oleh OP. Bootstrap empiris / dasar memeriksa distribusi perbedaan perkiraan bootstrap dari perkiraan sampel asli , bukan distribusi perkiraan bootstrap sendiri. Ini mengarah ke perbedaan serius dalam CI jika ada bias, seperti jawaban saya menjelaskan. Lihat halaman ini sebagai contoh.

[\bar{x *} - δ_{.1}, \bar{x *} - δ_{.9}]

$[\bar{x*}-\delta_{.1},\bar{x*}-\delta_{.9}]$

\bar{x *}

$\bar{x*}$

— EdM

2

Seperti yang sudah disebutkan dalam balasan sebelumnya, "bootstrap empiris" disebut "bootstrap dasar" di sumber lain (termasuk fungsi R boot.ci ), yang identik dengan "bootstrap persentil" terbalik pada perkiraan titik. Venables dan Ripley menulis ("Modern Applied Statstics with S", 4th ed., Springer, 2002, hal. 136):

Dalam masalah asimetris interval dasar dan persentil akan sangat berbeda, dan interval dasar tampak lebih rasional.

Karena penasaran, saya telah melakukan simulasi MonteCarlo yang luas dengan dua penduga yang didistribusikan secara asimetris, dan menemukan - yang mengejutkan saya sendiri - justru sebaliknya, yaitu bahwa interval persentil mengungguli interval dasar dalam hal probabilitas cakupan. Berikut adalah hasil saya dengan probabilitas cakupan untuk setiap ukuran sampel diperkirakan dengan satu juta sampel berbeda (diambil dari Laporan Teknis ini , hal. 26f): $n$

1) Mean distribusi asimetris dengan kerapatan Dalam hal ini interval kepercayaan klasik dan diberikan untuk perbandingan. $f(x)=3x^2$ $\pm t_{1-\alpha/2}\sqrt{s^2/n})$ $\pm z_{1-\alpha/2}\sqrt{s^2/n})$

2) Pengukur Kemungkinan Maksimum untuk dalam distribusi eksponensial Dalam kasus ini, dua interval kepercayaan alternatif diberikan untuk perbandingan: kali log-kemungkinan Hessian inverse, dan kali penduga varians Jackknife. $\lambda$ $\pm z_{1-\alpha/2}$ $\pm z_{1-\alpha/2}$

Dalam kedua kasus penggunaan, bootstrap BCa memiliki kemungkinan cakupan tertinggi di antara metode-metode bootstrap, dan bootstrap persentil memiliki probabilitas cakupan yang lebih tinggi daripada bootstrap dasar / empiris.

— cdalitz
sumber