Jika jumlah bunga, biasanya fungsional dari distribusi, cukup lancar dan data Anda iid, Anda biasanya berada di wilayah yang cukup aman. Tentu saja, ada beberapa keadaan lain ketika bootstrap akan bekerja juga.
Apa artinya bootstrap "gagal"
Secara umum, tujuan dari bootstrap adalah untuk membangun distribusi sampel perkiraan untuk statistik yang menarik. Ini bukan tentang estimasi aktual dari parameter. Jadi, jika statistik yang menarik (di bawah beberapa penyelamatan dan pemusatan) adalah dan dalam distribusi, kami ingin distribusi bootstrap kami untuk konvergen ke distribusi . Jika kita tidak memiliki ini, maka kita tidak bisa mempercayai kesimpulan yang dibuat.X^nX^n→X∞X∞
Contoh kanonik ketika bootstrap bisa gagal, bahkan dalam kerangka kerja iid adalah ketika mencoba memperkirakan distribusi sampling dari statistik urutan ekstrim. Di bawah ini adalah diskusi singkat.
Statistik pesanan maksimum dari sampel acak dari distribusiU[0,θ]
Misalkan menjadi urutan variabel acak seragam iid pada . Biarkan . Distribusi adalah
(Perhatikan bahwa dengan argumen yang sangat sederhana, ini sebenarnya juga menunjukkan bahwa dalam probabilitas, dan bahkan, hampir pasti , jika variabel acak semuanya didefinisikan pada ruang yang sama.)X1,X2,…[0,θ]X(n)=max1≤k≤nXkX(n)
P(X(n)≤x)=(x/θ)n.
X(n)→θ
Penghitungan dasar menghasilkan
atau, dengan kata lain, menyatu dalam distribusi ke variabel acak eksponensial dengan mean .
P(n(θ−X(n))≤x)=1−(1−xθn)n→1−e−x/θ,
n(θ−X(n))θ
Sekarang, kami membentuk perkiraan bootstrap (naif) dari distribusi dengan melakukan resampling dengan penggantian untuk mendapatkan bintang dan menggunakan distribusi dari bersyarat pada .n(θ−X(n))X1,…,XnX⋆1,…,X⋆nn(X(n)−X⋆(n))X1,…,Xn
Tetapi, amati bahwa dengan probabilitas , dan distribusi bootstrap memiliki titik massa nol, bahkan tanpa gejala meskipun fakta bahwa distribusi pembatasan aktual adalah kontinu.X⋆(n)=X(n)1−(1−1/n)n→1−e−1
Lebih eksplisit, meskipun distribusi pembatas sejati adalah eksponensial dengan mean , distribusi bootstrap yang membatasi menempatkan massa titik pada nol dari ukuran independen dari nilai aktual . Dengan mengambil cukup besar, kita dapat membuat probabilitas distribusi pembatas sebenarnya menjadi kecil untuk setiap interval tetap , namun bootstrap akan ( masih !) Melaporkan bahwa setidaknya ada probabilitas 0,632 dalam interval ini! Dari sini harus jelas bahwa bootstrap dapat berperilaku sewenang-wenang buruk dalam pengaturan ini.θ1−e−1≈0.632 θθ[0,ε)
Singkatnya, bootstrap gagal (menyedihkan) dalam kasus ini. Hal-hal cenderung salah ketika berhadapan dengan parameter di tepi ruang parameter.
Contoh dari sampel variabel acak normal
Ada contoh serupa lainnya dari kegagalan bootstrap dalam keadaan yang sangat sederhana.
Pertimbangkan contoh dari mana ruang parameter untuk dibatasi hingga . MLE dalam hal ini adalah . Sekali lagi, kami menggunakan perkiraan bootstrap . Sekali lagi, dapat ditunjukkan bahwa distribusi (tergantung pada sampel yang diamati) tidak menyatu dengan distribusi pembatas yang sama dengan .X1,X2,…N(μ,1)μ[0,∞)X^n=max(X¯,0)X^⋆n=max(X¯⋆,0)n−−√(X^⋆n−X^n)n−−√(X^n−μ)
Array yang dapat dipertukarkan
Mungkin salah satu contoh paling dramatis adalah untuk array yang dapat ditukar. Biarkan menjadi array variabel acak sehingga, untuk setiap pasangan matriks permutasi dan , array dan memiliki distribusi gabungan yang sama. Yaitu, permutasi baris dan kolom membuat distribusi tidak berubah. (Anda dapat memikirkan model efek acak dua arah dengan satu pengamatan per sel sebagai contoh, meskipun modelnya jauh lebih umum.)Y=(Yij)PQYPYQY
Misalkan kita ingin memperkirakan interval kepercayaan untuk mean (karena asumsi pertukaran yang dijelaskan di atas rata-rata semua sarana sel harus sama).μ=E(Yij)=E(Y11)
McCullagh (2000) menganggap dua cara alami yang berbeda (yaitu, naif) untuk bootstrap seperti array. Tak satu pun dari mereka mendapatkan varians asimptotik untuk mean sampel yang benar. Dia juga mempertimbangkan beberapa contoh array satu arah yang dapat ditukar dan regresi linier.
Referensi
Sayangnya, pokok bahasannya adalah nontrivial, jadi tidak satu pun dari ini yang mudah dibaca.
P. Bickel dan D. Freedman, Beberapa teori asimptotik untuk bootstrap . Ann. Stat. , vol. 9, tidak. 6 (1981), 1196-1217.
DWK Andrews, Inkonsistensi bootstrap ketika parameter berada di batas ruang parameter , Econometrica , vol. 68, tidak. 2 (2000), 399-405.
P. McCullagh, Resampling dan array yang dapat ditukar , Bernoulli , vol. 6, tidak. 2 (2000), 285-301.
EL Lehmann dan JP Romano, Menguji Hipotesis Statistik , 3. ed., Springer (2005). [Bab 15: Metode Sampel Besar Umum]