Saya ingin tahu apakah seseorang mengetahui aturan umum mengenai jumlah sampel bootstrap yang harus digunakan, berdasarkan karakteristik data (jumlah pengamatan, dll.) Dan / atau variabel yang dimasukkan?
Saya ingin tahu apakah seseorang mengetahui aturan umum mengenai jumlah sampel bootstrap yang harus digunakan, berdasarkan karakteristik data (jumlah pengamatan, dll.) Dan / atau variabel yang dimasukkan?
Jawaban:
Pengalaman saya adalah bahwa ahli statistik tidak akan menganggap serius simulasi atau bootstraps kecuali jika jumlah iterasi melebihi 1.000. Kesalahan MC adalah masalah besar yang sedikit di bawah dihargai. Misalnya, makalah ini digunakan Niter=50
untuk menunjukkan LASSO sebagai alat pemilihan fitur. Tesis saya akan mengambil jauh lebih sedikit waktu untuk menjalankan seandainya 50 iterasi dianggap dapat diterima! Saya merekomendasikan Anda untuk selalu memeriksa histogram sampel bootstrap . Distribusi mereka harus tampak cukup teratur. Saya tidak berpikir aturan numerik apa pun akan cukup, dan akan sulit untuk melakukan, katakanlah, double-bootstrap untuk menilai kesalahan MC.
Misalkan Anda memperkirakan rata-rata dari rasio dua variabel acak normal standar independen, beberapa ahli statistik mungkin merekomendasikan bootstrap karena integral tidak sulit untuk dihitung. Jika Anda memiliki teori probabilitas dasar di bawah ikat pinggang Anda, Anda akan mengenali bahwa rasio ini membentuk variabel acak Cauchy dengan rata-rata yang tidak ada. Distribusi leptokurtik lain akan membutuhkan beberapa iterasi bootstrap tambahan dibandingkan dengan pendamping kepadatan Gaussian yang lebih teratur. Dalam hal ini, sampel bootstrap 1000, 100000, atau 10000000 tidak akan cukup untuk memperkirakan yang tidak ada. Histogram dari bootstraps ini akan terus terlihat tidak teratur dan salah.
Ada beberapa kerutan lagi di cerita itu. Secara khusus, bootstrap hanya benar-benar dibenarkan ketika saat-saat model probabilitas menghasilkan data ada. Itu karena Anda menggunakan fungsi distribusi empiris sebagai manusia jerami untuk model probabilitas aktual, dan dengan asumsi mereka memiliki rata-rata yang sama, standar deviasi, kemiringan, persentil ke-99, dll.
Singkatnya, perkiraan bootstrap dari suatu statistik dan kesalahan standarnya hanya dibenarkan ketika histogram sampel yang di-boot tampak teratur tanpa keraguan dan ketika bootstrap dibenarkan.
edit:
Jika Anda serius ingin memiliki sampel yang cukup, yang harus Anda lakukan adalah menjalankan prosedur bootstrap Anda, dengan apa yang Anda harapkan, sampel yang cukup beberapa kali dan melihat seberapa banyak perkiraan bootstrap "melompat-lompat". Jika perkiraan berulang tidak banyak berbeda (di mana "banyak" tergantung pada situasi spesifik Anda) kemungkinan besar Anda akan baik-baik saja. Tentu saja Anda dapat memperkirakan berapa banyak perkiraan berulang melompat-lompat dengan menghitung sampel SD atau serupa.
Jika Anda menginginkan referensi dan aturan praktis, Wilcox (2010) menulis "599 direkomendasikan untuk penggunaan umum." Tetapi ini harus dianggap hanya sebagai pedoman atau mungkin jumlah sampel minimum yang harus Anda pertimbangkan. Jika Anda ingin berada di sisi yang aman tidak ada alasan (jika layak secara komputasi) mengapa Anda tidak harus menghasilkan urutan sampel yang lebih besar.
Pada catatan pribadi saya cenderung menjalankan 10.000 sampel ketika memperkirakan "untuk saya" dan 100.000 sampel ketika memperkirakan sesuatu diteruskan ke orang lain (tapi ini cepat karena saya bekerja dengan kumpulan data kecil).
Wilcox, RR (2010). Dasar-dasar metode statistik modern: Secara substansial meningkatkan daya dan akurasi. Peloncat.
Ada beberapa situasi di mana Anda dapat memberi tahu sebelumnya atau setelah beberapa iterasi bahwa sejumlah besar iterasi bootstrap tidak akan membantu pada akhirnya.
Mudah-mudahan Anda memiliki ide sebelumnya tentang urutan besarnya presisi yang diperlukan untuk interpretasi hasil yang bermakna. Jika Anda tidak, mungkin sekarang saatnya untuk belajar lebih banyak tentang masalah di balik analisis data. Bagaimanapun, setelah beberapa iterasi Anda mungkin dapat memperkirakan berapa banyak iterasi yang dibutuhkan.
Jelas, jika Anda memiliki sangat sedikit kasus (katakanlah, komite etika mengizinkan 5 tikus), Anda tidak perlu memikirkan puluhan ribu iterasi. Mungkin akan lebih baik untuk melihat semua kemungkinan undian. Dan mungkin akan lebih baik untuk berhenti dan berpikir seberapa pasti kesimpulan apa pun dapat (tidak) didasarkan pada 5 tikus.
Pikirkan tentang ketidakpastian total hasil. Di bidang saya, bagian dari ketidakpastian yang dapat Anda ukur dan kurangi dengan bootstrap mungkin hanya sebagian kecil dari ketidakpastian total (mis. Karena pembatasan dalam desain eksperimen, sumber variasi penting sering tidak dicakup oleh eksperimen - katakanlah , kami mulai dengan eksperimen pada garis sel meskipun tujuan akhirnya tentu saja menjadi pasien). Dalam situasi ini tidak masuk akal untuk menjalankan terlalu banyak iterasi - bagaimanapun juga tidak akan membantu hasil akhir dan terlebih lagi hal itu dapat menimbulkan rasa kepastian yang salah.
Masalah terkait (meskipun tidak persis sama) terjadi selama out-of-bootstrap atau validasi silang model: Anda memiliki dua sumber ketidakpastian: terbatas (dan dalam kasus saya biasanya sangat kecil jumlah kasus independen) dan (dalam) stabilitas model bootstrap. Bergantung pada pengaturan validasi resampling, Anda mungkin hanya memiliki satu di antaranya yang berkontribusi terhadap estimasi resampling. Dalam hal ini, Anda dapat menggunakan estimasi sumber varian lain untuk menilai kepastian yang harus Anda capai dengan pengujian ulang, dan kapan berhenti untuk membantu hasil akhir.
Akhirnya, sementara sejauh ini pikiran saya adalah tentang bagaimana melakukan iterasi yang lebih sedikit , berikut ini adalah pertimbangan praktis yang mendukung untuk melakukan lebih banyak :
Dalam praktik, pekerjaan saya tidak dilakukan setelah bootstrap dijalankan. Output dari bootstrap perlu digabungkan ke dalam ringkasan statistik dan / atau angka. Hasil perlu ditafsirkan makalah atau laporan yang akan ditulis. Banyak dari ini sudah dapat dilakukan dengan hasil awal dari beberapa iterasi bootstrap (jika hasilnya jelas, mereka menunjukkan sudah setelah beberapa iterasi, jika mereka borderline mereka akan tetap di borderline). Jadi saya sering mengatur bootstrap dengan cara yang memungkinkan saya untuk menarik hasil awal sehingga saya bisa terus bekerja sementara komputer menghitung. Dengan begitu tidak terlalu mengganggu saya jika bootstrap membutuhkan beberapa hari lagi.
TLDR. 10.000 tampaknya merupakan aturan praktis yang baik, misalnya nilai-p dari sampel bootstrap yang besar ini atau lebih besar akan berada dalam 0,01 dari "nilai-p sebenarnya" untuk metode sekitar 95% dari waktu.
Saya hanya mempertimbangkan pendekatan bootstrap persentil di bawah ini, yang merupakan metode yang paling umum digunakan (setahu saya) tetapi juga diakui memiliki kelemahan dan tidak boleh digunakan dengan sampel kecil .
Membingkai ulang sedikit. Mungkin bermanfaat untuk menghitung ketidakpastian yang terkait dengan hasil dari bootstrap untuk memahami ketidakpastian yang dihasilkan dari penggunaan bootstrap. Perhatikan bahwa ini tidak mengatasi kelemahan yang mungkin terjadi pada bootstrap (mis. Lihat tautan di atas), tetapi hal ini membantu mengevaluasi jika ada sampel bootstrap "cukup" dalam aplikasi tertentu. Secara umum, kesalahan yang terkait dengan ukuran sampel bootstrap n
menjadi nol seperti n
halnya hingga tak terbatas, dan pertanyaannya, seberapa besar n
kesalahan yang terkait dengan ukuran sampel bootstrap kecil menjadi kecil?
Ketidakstabilan bootstrap dalam nilai p. Ketidaktepatan dalam nilai p yang diperkirakan, katakanlah pv_est adalah nilai p yang diestimasi dari bootstrap, adalah tentang 2 x sqrt(pv_est * (1 - pv_est) / N)
, di mana N
jumlah sampel bootstrap. Ini berlaku jika pv_est * N
dan (1 - pv_est) * N
keduanya >= 10
. Jika salah satu dari ini lebih kecil dari 10, maka itu kurang tepat tetapi sangat kasar di lingkungan yang sama dengan perkiraan itu.
Kesalahan bootstrap dalam interval kepercayaan. Jika menggunakan interval kepercayaan 95%, maka lihat bagaimana variabilitas kuantil dari distribusi bootstrap dekat 2,5% dan 97,5% dengan memeriksa persentil di (untuk persentil ke-2,5) 2.5 +/- 2 * 100 * sqrt(0.025 * 0.975 / n)
. Formula ini mengkomunikasikan ketidakpastian ujung bawah interval kepercayaan 95% berdasarkan jumlah sampel bootstrap yang diambil. Eksplorasi serupa harus dilakukan di ujung atas. Jika perkiraan ini agak tidak stabil, maka pastikan untuk mengambil lebih banyak sampel bootstrap!
Kita punya
Saya mengambil informasi berikut dari Davidson, R., & MacKinnon, JG (2000). Tes bootstrap: Berapa banyak bootstraps ?. Ulasan Ekonometrik, 19 (1), 55-68. (versi kertas kerja dapat diunduh secara bebas).
"Sangat mudah untuk memahami mengapa prosedur pretesting bekerja dengan baik. Ketika hipotesis nol benar, B dapat dengan aman menjadi kecil, karena kita sama sekali tidak peduli tentang daya sama sekali. Demikian pula, ketika nol adalah palsu dan daya uji sangat tinggi, B tidak perlu besar, karena kehilangan daya bukan masalah serius, namun ketika nol adalah salah dan uji daya cukup tinggi, B harus besar untuk menghindari hilangnya daya. Prosedur pretesting cenderung membuat B kecil ketika bisa aman kecil dan besar saat perlu besar. "
Sebagian besar aplikasi bootstrap yang saya lihat melaporkan sekitar 2.000 hingga 100 ribu iterasi. Dalam praktik modern dengan perangkat lunak yang memadai, masalah yang menonjol dengan bootstrap adalah masalah statistik, lebih daripada waktu dan kapasitas komputasi. Untuk pengguna pemula dengan Excel, seseorang hanya dapat melakukan beberapa ratus sebelum memerlukan penggunaan pemrograman Visual Basic lanjutan. Namun, R jauh lebih mudah digunakan dan membuat generasi ribuan nilai bootstrap mudah dan langsung.