Secara intuitif, bagaimana cara bootstrap liar bekerja?

Saya mencoba memahami intuisi di balik wild-bootstrap. Apa yang sebenarnya ia lakukan? Saya harus dapat memahami apa yang ingin dilakukan dibandingkan dengan regresi konvensional.

Data saya memiliki heteroskedastisitas, dan metode yang saya gunakan melakukan 5000 ulangan.

Bagaimana cara menghasilkan 5.000 data tambahan?

regression bootstrap intuition

— Francis Origi
sumber

Katakanlah Anda memiliki satu set pelatihan $\mathcal{T}$ dari $n$ pasangan contoh $(y_i, \vec{x}_i)$ .

Bootstrap normal adalah satu set $\mathcal{B}$ dari $n$ pasangan contoh $(y_{r_i}, \vec{x}_{r_i})$ dimana $r_i$ adalah urutan $n$ bilangan bulat acak disampel secara seragam dari 1 hingga $n$ . Secara khusus, perhatikan bahwa setiap contoh dalam $\mathcal{B}$ persis sama dengan salah satu contoh dari $\mathcal{T}$ , dan beberapa diulang. Tapi ini agak aneh, terutama ketika variabel responsnya berkelanjutan, karena jika kita mengambil sampel populasi asli, kita hampir pasti tidak akan mendapatkan bahkan satu duplikat yang tepat , sementara bootstrap cenderung memiliki banyak.

Untuk menghindari duplikat, kita perlu contoh $\mathcal{B}$ bukan salinan dari contoh karbon $\mathcal{T}$ , melainkan contoh sintetik yang lebih mirip apa yang akan kita dapatkan, kita sampel dari populasi aslinya. Ini membutuhkan asumsi tentang distribusi populasi asli.

Jika kita mengasumsikan homoskedastisitas dan sesuai dengan model linier $\mathcal{T}$ yang memiliki residu $e_i$ maka kita dapat membuat contoh sintetis baru dengan mengganti residu yang dipasang dari masing-masing contoh dengan residu dari contoh pelatihan yang berbeda . Jika residu benar-benar iid, seharusnya tidak ada masalah menukar satu sama lain. Kami melakukan penggantian ini dengan mengurangi sisa yang ditemukan untuk contoh pelatihan $(y_i, \vec{x}_i)$ dan menambahkan sisa untuk beberapa contoh lain:

\begin{matrix} (1) & y_{i}^{*} = y_{r_{i}} - e_{r_{i}} + e_{r_{i}^{'}} \end{matrix}

$y^*_i = y_{r_i} - e_{r_i} + e_{r'_i} \tag{1}$

Dimana $r_i$ dan $r'_i$ adalah dua resampling yang berbeda dan independen. Kami kemudian dapat membentuk bootstrap dengan cara biasa:

\begin{matrix} (2) & B = {(y_{i}^{*}, {\vec{x}}_{i})}_{i = 1}^{n} \end{matrix}

$\mathcal{B} = \{\, (y^*_i, \vec{x}_i)\, \}_{i=1}^n \tag{2}$

Ini disebut bootstrap residual dan dapat dianggap sebagai memilih residu baru dari fungsi distribusi empiris residual.

Untuk mengendurkan asumsi id dan homoskedastisitas lebih lanjut, kita dapat menggunakan bootstrap liar , tempat kita menghitung variabel respons baru bahkan lebih acak dengan mengalikan residu yang dipilih secara acak dengan variabel acak lain $v_i$ .

\begin{matrix} (3) & y_{i}^{*} = y_{r_{i}} - e_{r_{i}} + v_{i} e_{r_{i}^{'}} \end{matrix}

$y^*_i = y_{r_i} - e_{r_i} + v_i e_{r'_i} \tag{3}$

Seringkali distribusi normal standar $v_i \sim \mathcal{N}(0, 1)$ digunakan tetapi pilihan lain dimungkinkan. Misalnya, terkadang $v_i$ hanya dipilih dengan probabilitas yang sama dari $\{-1,1\}$ , yang secara acak membalik tanda setengah waktu, memaksa distribusi residu menjadi simetris. Intinya adalah untuk mendapatkan contoh pelatihan yang lebih dekat dengan apa yang akan kita dapatkan dari populasi asli tanpa replikasi buatan yang diperkenalkan oleh bootstrap.

— olooney
sumber

Jadi pada dasarnya, kami menghasilkan kesalahan yang berperilaku sama dengan residual aktual dan kemudian mendapatkan data aktual yang berkinerja sama dengan data aktual? Adakah buku teks yang akan direkomendasikan?

— Francis Origi

lalu apa, apa yang kita lakukan dengan semua data ekstra ini? Bagaimana kita menghitung statistik t dll?

— Francis Origi