Jika pasangan peramal respons telah diperoleh dari suatu populasi dengan sampel acak, aman untuk menggunakan case / random-x / skema resampling pertama Anda. Jika prediktor dikontrol untuk, atau nilai-nilai prediktor ditetapkan oleh eksperimen, Anda dapat mempertimbangkan menggunakan skema resampling residual / berbasis / tetap-x / your-second.
Bagaimana keduanya berbeda? Pengantar bootstrap dengan aplikasi dalam R oleh Davison dan Kounen memiliki diskusi yang berkaitan dengan pertanyaan ini (lihat hal.9). Lihat juga kode R dalam apendiks ini oleh John Fox , khususnya fungsi boot.huber pada hal.5 untuk skema random-x dan boot.huber. diperbaiki pada hal.10 untuk skema fixed-x. Sementara dalam catatan kuliah oleh Shalizi , kedua skema tersebut diterapkan pada kumpulan data / masalah yang berbeda, lampiran Fox mengilustrasikan betapa kecilnya perbedaan dari kedua skema tersebut.
Kapan keduanya dapat diharapkan untuk memberikan hasil yang hampir sama? Salah satu situasi adalah ketika model regresi ditentukan dengan benar, misalnya, tidak ada nonlinier yang tidak dimodelkan dan asumsi regresi yang biasa (misalnya, kesalahan awal, tidak ada outlier) terpenuhi. Lihat bab 21 buku Fox (di mana apendiks yang disebutkan di atas dengan kode R secara tidak langsung termasuk), khususnya diskusi di halaman 598 dan latihan 21.3. berjudul "Pengacakan acak versus tetap dalam regresi". Mengutip dari buku
By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based]
procedure implicitly assumes that the errors are identically distributed. If, for
example, the true errors have non-constant variance, then this property will not be
reflected in the resampled residuals. Likewise, the unique impact of a high-leverage
outlier will be lost to the resampling.
Anda juga akan belajar dari diskusi itu mengapa fixed-x bootstrap secara implisit mengasumsikan bahwa bentuk fungsional dari model itu benar (walaupun tidak ada asumsi yang dibuat tentang bentuk distribusi kesalahan).
Lihat juga slide 12 ceramah ini untuk Society Of Actuaries di Irlandia oleh Derek Bain. Ini juga memiliki ilustrasi tentang apa yang harus dianggap "hasil yang sama":
The approach of re-sampling cases to generate pseudo data is the more usual form of
bootstrapping. The approach is robust in that if an incorrect model is fitted an
appropriate measure of parameter meter uncertainty is still obtained. However re
sampling residuals is more efficient if the correct model has been fitted.
The graphs shows both approaches in estimating the variance of a 26 point data sample
mean and a 52 point sample mean. In the larger sample the two approaches are
equivalent.