Apa contoh di mana "bootstrap naif" gagal?


86

Misalkan saya memiliki satu set data sampel dari distribusi yang tidak diketahui atau kompleks, dan saya ingin melakukan beberapa kesimpulan pada statistik dari data tersebut. Kecenderungan default saya adalah untuk hanya menghasilkan sekelompok sampel bootstrap dengan penggantian, dan menghitung statistik saya pada setiap sampel bootstrap untuk membuat distribusi diperkirakan untuk .TTT

Apa contoh di mana ini adalah ide yang buruk?

Sebagai contoh, satu kasus di mana secara naif melakukan bootstrap ini akan gagal adalah jika saya mencoba menggunakan bootstrap pada data time series (katakanlah, untuk menguji apakah saya memiliki autokorelasi yang signifikan). Bootstrap naif yang dijelaskan di atas (menghasilkan datapoint ke- dari seri sampel bootstrap ke-n dengan pengambilan sampel dengan penggantian dari seri asli saya) akan (saya pikir) keliru, karena mengabaikan struktur dalam seri waktu asli saya, dan jadi kami dapatkan teknik bootstrap yang lebih bagus seperti blok bootstrap.i

Dengan kata lain, apa yang ada pada bootstrap selain "sampling with replacement"?


Jika Anda ingin melakukan inferensi untuk rata-rata data iid, bootstrap adalah alat yang hebat. Segala sesuatu yang lain dipertanyakan, dan membutuhkan bukti kasus konvergensi yang lemah.
Tugas

Jawaban:


67

Jika jumlah bunga, biasanya fungsional dari distribusi, cukup lancar dan data Anda iid, Anda biasanya berada di wilayah yang cukup aman. Tentu saja, ada beberapa keadaan lain ketika bootstrap akan bekerja juga.

Apa artinya bootstrap "gagal"

Secara umum, tujuan dari bootstrap adalah untuk membangun distribusi sampel perkiraan untuk statistik yang menarik. Ini bukan tentang estimasi aktual dari parameter. Jadi, jika statistik yang menarik (di bawah beberapa penyelamatan dan pemusatan) adalah dan dalam distribusi, kami ingin distribusi bootstrap kami untuk konvergen ke distribusi . Jika kita tidak memiliki ini, maka kita tidak bisa mempercayai kesimpulan yang dibuat.X^nX^nXX

Contoh kanonik ketika bootstrap bisa gagal, bahkan dalam kerangka kerja iid adalah ketika mencoba memperkirakan distribusi sampling dari statistik urutan ekstrim. Di bawah ini adalah diskusi singkat.

Statistik pesanan maksimum dari sampel acak dari distribusiU[0,θ]

Misalkan menjadi urutan variabel acak seragam iid pada . Biarkan . Distribusi adalah (Perhatikan bahwa dengan argumen yang sangat sederhana, ini sebenarnya juga menunjukkan bahwa dalam probabilitas, dan bahkan, hampir pasti , jika variabel acak semuanya didefinisikan pada ruang yang sama.)X1,X2,[0,θ]X(n)=max1knXkX(n)

P(X(n)x)=(x/θ)n.
X(n)θ

Penghitungan dasar menghasilkan atau, dengan kata lain, menyatu dalam distribusi ke variabel acak eksponensial dengan mean .

P(n(θX(n))x)=1(1xθn)n1ex/θ,
n(θX(n))θ

Sekarang, kami membentuk perkiraan bootstrap (naif) dari distribusi dengan melakukan resampling dengan penggantian untuk mendapatkan bintang dan menggunakan distribusi dari bersyarat pada .n(θX(n))X1,,XnX1,,Xnn(X(n)X(n))X1,,Xn

Tetapi, amati bahwa dengan probabilitas , dan distribusi bootstrap memiliki titik massa nol, bahkan tanpa gejala meskipun fakta bahwa distribusi pembatasan aktual adalah kontinu.X(n)=X(n)1(11/n)n1e1

Lebih eksplisit, meskipun distribusi pembatas sejati adalah eksponensial dengan mean , distribusi bootstrap yang membatasi menempatkan massa titik pada nol dari ukuran independen dari nilai aktual . Dengan mengambil cukup besar, kita dapat membuat probabilitas distribusi pembatas sebenarnya menjadi kecil untuk setiap interval tetap , namun bootstrap akan ( masih !) Melaporkan bahwa setidaknya ada probabilitas 0,632 dalam interval ini! Dari sini harus jelas bahwa bootstrap dapat berperilaku sewenang-wenang buruk dalam pengaturan ini.θ1e10.632 θθ[0,ε)

Singkatnya, bootstrap gagal (menyedihkan) dalam kasus ini. Hal-hal cenderung salah ketika berhadapan dengan parameter di tepi ruang parameter.

Contoh dari sampel variabel acak normal

Ada contoh serupa lainnya dari kegagalan bootstrap dalam keadaan yang sangat sederhana.

Pertimbangkan contoh dari mana ruang parameter untuk dibatasi hingga . MLE dalam hal ini adalah . Sekali lagi, kami menggunakan perkiraan bootstrap . Sekali lagi, dapat ditunjukkan bahwa distribusi (tergantung pada sampel yang diamati) tidak menyatu dengan distribusi pembatas yang sama dengan .X1,X2,N(μ,1)μ[0,)X^n=max(X¯,0)X^n=max(X¯,0)n(X^nX^n)n(X^nμ)

Array yang dapat dipertukarkan

Mungkin salah satu contoh paling dramatis adalah untuk array yang dapat ditukar. Biarkan menjadi array variabel acak sehingga, untuk setiap pasangan matriks permutasi dan , array dan memiliki distribusi gabungan yang sama. Yaitu, permutasi baris dan kolom membuat distribusi tidak berubah. (Anda dapat memikirkan model efek acak dua arah dengan satu pengamatan per sel sebagai contoh, meskipun modelnya jauh lebih umum.)Y=(Yij)PQYPYQY

Misalkan kita ingin memperkirakan interval kepercayaan untuk mean (karena asumsi pertukaran yang dijelaskan di atas rata-rata semua sarana sel harus sama).μ=E(Yij)=E(Y11)

McCullagh (2000) menganggap dua cara alami yang berbeda (yaitu, naif) untuk bootstrap seperti array. Tak satu pun dari mereka mendapatkan varians asimptotik untuk mean sampel yang benar. Dia juga mempertimbangkan beberapa contoh array satu arah yang dapat ditukar dan regresi linier.

Referensi

Sayangnya, pokok bahasannya adalah nontrivial, jadi tidak satu pun dari ini yang mudah dibaca.

P. Bickel dan D. Freedman, Beberapa teori asimptotik untuk bootstrap . Ann. Stat. , vol. 9, tidak. 6 (1981), 1196-1217.

DWK Andrews, Inkonsistensi bootstrap ketika parameter berada di batas ruang parameter , Econometrica , vol. 68, tidak. 2 (2000), 399-405.

P. McCullagh, Resampling dan array yang dapat ditukar , Bernoulli , vol. 6, tidak. 2 (2000), 285-301.

EL Lehmann dan JP Romano, Menguji Hipotesis Statistik , 3. ed., Springer (2005). [Bab 15: Metode Sampel Besar Umum]


Perilaku urutan bootstrap statistik tampaknya masuk akal bagi saya, mengingat bahwa distribusi eksponensial memiliki "titik massa" yang sama dengan nol - Mode distribusi eksponensial adalah 0, sehingga tampaknya masuk akal bahwa probabilitasnya seharusnya bukan nol pada nilai yang paling mungkin! Bootstrap mungkin akan lebih mirip distribusi geometrik yang merupakan analog diskrit dari eksponensial. Saya tidak akan menganggap ini sebagai "kegagalan" dari bootstrap di sini - karena perkiraan jumlah selalu terletak pada interval yang sesuaiθθX(n)
probabilityislogic

1
@ cardinal - distribusi asimptotik bukanlah patokan yang tepat - kecuali jika Anda memiliki sampel yang tak terbatas. Distribusi bootstrap harus dibandingkan dengan distribusi sampel hingga yang dirancang untuk diperkirakan. Apa yang ingin Anda tunjukkan adalah bahwa ketika jumlah iterasi bootstrap pergi hingga tak terbatas, distribusi bootstrap menyatu dengan distribusi sampling hingga . membiarkan adalah solusi perkiraan bukan solusi tepat. n
probabilityislogic

5
@ cardinal +1, saya telah menjawab pertanyaan sebelumnya, tetapi saya hanya ingin berterima kasih atas jawaban yang sangat baik, contoh dan tautan ke artikel.
mpiktas

@probabilityislogic, tentu saja dalam aplikasi umum teori asimptotik tergantung pada tingkat konvergensi, jika lambat, maka itu tidak berlaku. Tetapi Anda harus menunjukkan bahwa nilainya lambat, karena saya curiga bahwa misalnya dengan distribusi yang seragam mengambil ukuran sampel 100, Anda akan menemui masalah yang diuraikan oleh kardinal.
mpiktas

3
@probabilityislogic, pada awalnya, saya hanya melihat yang terakhir dari dua komentar terbaru Anda. Untuk mengatasi yang pertama, Anda dapat melihat dua kalimat pertama dari bagian di atas dengan tajuk "Apa artinya bootstrap menjadi 'gagal'", di mana ini ditangani secara eksplisit. Bootstrap bukan tentang mengestimasi parameter. Kami menganggap kami memiliki cara yang baik untuk memperkirakan parameter yang diinginkan (dalam hal ini, berfungsi dengan baik). Bootstrap adalah tentang mengetahui sesuatu tentang distribusi parameter sehingga kita dapat melakukan inferensi. Di sini, bootstrap yang membuat distribusi ( sangat! ) Salah. X(n)
kardinal

8

Buku berikut memiliki bab (Bab.9) yang ditujukan untuk "Ketika Bootstrapping Gagal Seiring dengan Pemulihan untuk Kegagalan":

MR Chernick, metode Bootstrap: Panduan bagi praktisi dan peneliti , edisi ke-2. Hoboken NJ: Wiley-Interscience, 2008.

Topiknya adalah:

  1. Ukuran Sampel Terlalu Kecil
  2. Distribusi dengan Momen Tak Terbatas
  3. Memperkirakan Nilai Ekstrim
  4. Sampling Survei
  5. Urutan Data yang M -Dependent
  6. Proses Autoregresif Tidak Stabil
  7. Ketergantungan Jangka Panjang

1
Sudahkah Anda melihat komentar ini sebagai jawaban di utas ini? Secara kebetulan, komentar itu terhubung ke halaman Amazon untuk buku Chernick; ulasan pembaca sangat mencerahkan.
whuber

@whuber Yah, saya tidak memperhatikan komentar itu. Haruskah saya menghapus jawaban saya?
Sadeghd

1
Karena jawaban Anda lebih rinci daripada referensi dalam komentar, maka berpotensi memiliki nilai: tetapi sesuai dengan kebijakan dan tujuan SE, akan menyenangkan untuk melihatnya diperkuat dengan beberapa penjelasan mengapa Anda merekomendasikan buku ini atau - bahkan lebih baik --untuk memasukkan ringkasan informasi di dalamnya. Kalau tidak, ia menambahkan sedikit dan harus dihapus atau diubah menjadi komentar untuk pertanyaan.
whuber

1

Bootstrap naif tergantung pada ukuran sampel yang besar, sehingga CDF empiris untuk data adalah perkiraan yang baik untuk CDF "benar". Ini memastikan bahwa pengambilan sampel dari CDF empiris sangat mirip dengan pengambilan sampel dari CDF "benar". Kasus ekstrem adalah ketika Anda hanya mengambil sampel satu titik data - bootstrap tidak menghasilkan apa pun di sini. Ini akan menjadi semakin tidak berguna saat mendekati kasus yang merosot ini.

Bootstrapping secara naif tidak akan selalu gagal dalam analisis deret kali (walaupun mungkin tidak efisien) - jika Anda memodelkan deret tersebut menggunakan fungsi basis waktu kontinu (polinomial legendaris) untuk komponen tren, dan fungsi sinus dan kosinus dari waktu kontinu untuk siklus. komponen (ditambah istilah kesalahan noise normal). Kemudian Anda hanya memasukkan kapan saja Anda kebetulan telah mengambil sampel ke dalam fungsi kemungkinan. Tidak ada bencana untuk bootstrap di sini.

Setiap model korelasi-otomatis atau ARIMA memiliki representasi dalam format di atas - model ini hanya lebih mudah digunakan dan saya pikir untuk memahami dan menafsirkan (siklus siklus sinus dan kosinus yang mudah dipahami, sulit untuk memahami koefisien dari model ARIMA). Misalnya fungsi auto-korelasi adalah transformasi Fourier terbalik dari spektrum daya dari deret waktu.


@probabilityislogic -1, saya tidak sengaja membatalkan jawaban sebelumnya (menyalahkan Opera mini) jadi saya harus mengeditnya untuk dapat menurunkan, saya minta maaf karena menggunakan taktik seperti itu. Saya melakukan ini hanya karena saya tidak suka jawabannya pada awalnya, tetapi tidak downvote karena saya ingin menyiapkan argumen saya, yang akan saya berikan dalam komentar berikut.
mpiktas

1
@probabilityislogic, untuk proses deret waktu, waktu memainkan peran penting, sehingga distribusi vektor berbeda dari . Resampling seperti yang dilakukan pada bootstrap naif menghancurkan struktur ini, jadi misalnya jika Anda mencoba untuk mencocokkan model AR (1), setelah melakukan resampling Anda mungkin mendapatkan bahwa Anda mencoba menyesuaikan sebagai , yang merupakan sepertinya tidak alami. Jika Anda mencari "seri waktu bootstrap" , artikel kedua memberikan contoh bagaimana perkiraan varian seri waktu ...(Xt,Xt+1)(Xt+1,Xt)Y10ρY15
mpiktas

2
@probabilityislogic, mungkinkah Anda mendemonstrasikan ide Anda dalam jawaban Anda untuk perkiraan bootstrap naif dari di AR (1) model ? Saya tidak berpikir itu mungkin, karena itu alasan mendasar untuk downvote. Saya akan senang terbukti salah. ρYt=ρYt1+ut
mpiktas

1
@probabilityislogic, dan? Apa yang akan menjadi estimasi dalam kasus itu? Saya minta maaf telah mengganggu, tetapi saya benar-benar tidak melihat bagaimana Anda dapat menunjukkan bahwa bootstrap naif tidak akan gagal dalam kasus ini. rho
mpiktas

4
Buku saya di sini memiliki bab tentang kapan bootstrap gagal dan juga bab tentang bagaimana bootstrap diterapkan dalam rangkaian waktu. Untuk deret waktu bootstrap dapat diterapkan ke residu dari suatu model dalam pendekatan berbasis model. Pendekatan domain waktu nonparametrik lainnya adalah blok bootstrap yang ada banyak jenisnya.
Michael Chernick
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.