Bootstrap vs integrasi numerik

8

Pemahaman saya tentang pendekatan bootstrap didasarkan pada kerangka kerja Wasserman (hampir kata demi kata):

Membiarkan $T_n = g(X_1, ..., X_n)$ menjadi statistik ( $X_i$ adalah sampel awal yang diambil dari distribusi $F$ ). Misalkan kita ingin memperkirakan $V_F(T_n)$ - varians dari $T_n$ diberikan $F$ .

Pendekatan bootstrap mengikuti dua langkah ini:

Memperkirakan $V_F(T_n)$ dengan $V_{\hat{F}}(T_n)$ dimana $\hat{F}$ adalah fungsi distribusi empiris.

Perkiraan $V_{\hat{F}}(T_n)$ menggunakan simulasi.

Apakah saya mengerti benar bahwa simulasi pada langkah 2 dapat diganti dengan perhitungan yang tepat, kecuali bahwa itu tidak layak untuk nilai praktis yang berguna dari $n$ ? Inilah pemikiran saya: $V_{\hat{F}}$ tepatnya sama dengan integral $T_n(X_1, ..., X_n)d\hat{F}(X_1)d\hat{F}(X_2)...d\hat{F}(X_n)$ . $\hat{F}$ adalah fungsi langkah, dengan angka yang terbatas $n$ Langkah; jadi kita bisa mengabaikan semua poin kecuali $n$ menunjukkan di mana $d\hat{F}(x)$ memiliki massa bukan nol. Jadi integralnya persis sama dengan jumlah $n^n$ ketentuan Sekali $n$ melebihi 14, perhitungan langsung yang sederhana tidak mungkin.

Tapi semua yang kami coba lakukan adalah menghitung integral. Mengapa tidak mengganti simulasi bootstrap brute-force dengan salah satu algoritma numerik tradisional untuk mengambil integral? Bukankah itu menghasilkan presisi yang jauh lebih tinggi untuk waktu komputasi yang sama?

Bahkan sesuatu yang sederhana seperti memisahkan ruang sampel menjadi beberapa bagian (mungkin dengan volume yang lebih kecil di mana statistik sampel bervariasi lebih cepat), dan memperkirakan nilai statistik di setiap bagian dengan menggunakan titik tengah, tampaknya lebih baik daripada blind bootstrap.

Apa yang saya lewatkan?

Mungkin bootstrap bekerja dengan sangat baik dan sangat cepat sehingga tidak perlu melakukan hal yang lebih rumit? (Misalnya, jika kehilangan presisi pada langkah 1 jauh lebih besar daripada pada langkah 2, maka perbaikan pada langkah 2 agak tidak berguna.)

bootstrap computational-statistics

— maks
sumber

6

Bootstrap bekerja dengan sangat baik. Jika Anda ingin memperkirakan mean, varians, dan beberapa kuantil tidak terlalu ekstrim dari distribusi beberapa dimensi rendah $\hat\theta(Y)$ , beberapa ratus hingga beberapa ribu sampel ulang akan membuat kesalahan Monte Carlo diabaikan, untuk banyak masalah realistis. Sebagai produk sampingan yang bahagia, itu juga memberi Anda sampel $\hat\theta(Y^*)$ , yang dapat digunakan untuk prosedur diagnostik, jika diinginkan, dan tidak terlalu sulit untuk mendapatkan ukuran yang dapat diterima tentang seberapa besar kesalahan Monte Carlo sebenarnya.

Memasukkan model regresi misalnya seribu kali lipat (hari ini) bukan masalah besar, baik dalam hal waktu CPU atau upaya pengkodean.

Sebaliknya, integrasi numerik (tidak termasuk metode Monte Carlo) mungkin sulit dikodekan - Anda harus memutuskan bagaimana membagi ruang sampel, misalnya, yang merupakan tugas yang tidak sepele. Metode-metode ini juga tidak memberikan diagnosa, dan akurasi yang mereka perkirakan integral sebenarnya sangat sulit untuk dinilai.

Untuk melakukan sebagian besar dari apa yang dilakukan bootstrap, tetapi lebih cepat, lihat Generalized Method of Moments - untuk kesimpulan berdasarkan model regresi (dan banyak lagi) Anda dapat menganggapnya sebagai perkiraan cepat dan akurat terhadap apa yang bootstrap non-parametrik akan memberi.

— tamu
sumber

Terima kasih. Karena langkah 2 ditangani dengan cukup baik, saya ingin tahu, dapatkah GMM atau teknik lainnya mengatasi ketidaktepatan pada langkah 1 (di mana kami memperkirakan varian dari distribusi yang sebenarnya dengan varian dari distribusi empiris)?

— Maks.

"Plain vanilla" GMM menggunakan pendekatan yang sangat langsung ke kovarian sejati. Penggunaan perkiraan tingkat tinggi (pendekatan saddlepoint dan sejenisnya) dapat digunakan, tetapi Anda harus membuat kode sendiri, dan mungkin membuat asumsi sedikit lebih kuat dari GMM biasa untuk memastikan Anda mendapatkan perkiraan "terbaik".

— tamu

3

Simulasi yang paling sering digunakan dalam bootstrap untuk perhitungan numerik varians pada prinsipnya dapat digantikan oleh perhitungan yang tepat atau pendekatan alternatif integral. Namun, kita harus menyadari bahwa simulasi "brute-force" sebagai alternatif dari teknik integrasi numerik lainnya sebenarnya adalah ide yang bagus. Jawaban untuk pertanyaan "Bukankah itu menghasilkan presisi yang jauh lebih tinggi untuk waktu komputasi yang sama?" adalah tidak ada .

Tapi mengapa begitu? Masalahnya adalah bahwa integrasi numerik standar dalam dimensi tinggi berskala buruk dengan dimensi. Jika Anda ingin membagi ruang menjadi titik-titik grid biasa, katakan, dengan $r$ titik kisi di setiap koordinat, Anda berakhir dengan $r^n$ titik kotak total. Perkiraan yang dicapai dengan simulasi (dikenal sebagai integrasi Monte Carlo) dapat dipandang sebagai pilihan cerdas untuk evaluasi fungsi. Alih-alih menghabiskan waktu evaluasi grid, kami hanya mengevaluasi fungsi yang kami integrasikan pada titik-titik yang dipilih. Kesalahannya adalah, karena sifat acak dari titik-titik yang dipilih, acak, tetapi biasanya dapat dikontrol oleh teorema batas pusat.

Ada metode lain seperti integrasi quasi-Monte Carlo, yang hampir tidak saya ketahui, yang membuat evaluasi fungsi pintar berdasarkan angka quasi-random alih-alih angka pseudo-acak yang kami gunakan untuk integrasi Monte Carlo biasa.

— NRH
sumber