Katakanlah Anda memiliki satu set pelatihan T dari n pasangan contoh (yi,x⃗ i).
Bootstrap normal adalah satu set B dari n pasangan contoh (yri,x⃗ ri)dimana ri adalah urutan n bilangan bulat acak disampel secara seragam dari 1 hingga n. Secara khusus, perhatikan bahwa setiap contoh dalamB persis sama dengan salah satu contoh dari T, dan beberapa diulang. Tapi ini agak aneh, terutama ketika variabel responsnya berkelanjutan, karena jika kita mengambil sampel populasi asli, kita hampir pasti tidak akan mendapatkan bahkan satu duplikat yang tepat , sementara bootstrap cenderung memiliki banyak.
Untuk menghindari duplikat, kita perlu contoh B bukan salinan dari contoh karbonT, melainkan contoh sintetik yang lebih mirip apa yang akan kita dapatkan, kita sampel dari populasi aslinya. Ini membutuhkan asumsi tentang distribusi populasi asli.
Jika kita mengasumsikan homoskedastisitas dan sesuai dengan model linier T yang memiliki residu eimaka kita dapat membuat contoh sintetis baru dengan mengganti residu yang dipasang dari masing-masing contoh dengan residu dari contoh pelatihan yang berbeda . Jika residu benar-benar iid, seharusnya tidak ada masalah menukar satu sama lain. Kami melakukan penggantian ini dengan mengurangi sisa yang ditemukan untuk contoh pelatihan(yi,x⃗ i) dan menambahkan sisa untuk beberapa contoh lain:
y∗i=yri−eri+er′i(1)
Dimana ri dan r′iadalah dua resampling yang berbeda dan independen. Kami kemudian dapat membentuk bootstrap dengan cara biasa:
B={(y∗i,x⃗ i)}ni=1(2)
Ini disebut bootstrap residual dan dapat dianggap sebagai memilih residu baru dari fungsi distribusi empiris residual.
Untuk mengendurkan asumsi id dan homoskedastisitas lebih lanjut, kita dapat menggunakan bootstrap liar , tempat kita menghitung variabel respons baru bahkan lebih acak dengan mengalikan residu yang dipilih secara acak dengan variabel acak lainvi.
y∗i=yri−eri+vier′i(3)
Seringkali distribusi normal standar vi∼N(0,1)digunakan tetapi pilihan lain dimungkinkan. Misalnya, terkadangvi hanya dipilih dengan probabilitas yang sama dari { - 1 , 1 }, yang secara acak membalik tanda setengah waktu, memaksa distribusi residu menjadi simetris. Intinya adalah untuk mendapatkan contoh pelatihan yang lebih dekat dengan apa yang akan kita dapatkan dari populasi asli tanpa replikasi buatan yang diperkenalkan oleh bootstrap.