Mean dari sampel bootstrap vs statistik sampel

Katakanlah saya memiliki sampel dan sampel bootstrap dari sampel ini untuk stastitik (misalnya rata-rata). Seperti yang kita semua tahu, sampel bootstrap ini memperkirakan pada distribusi sampling dari penaksir statistik. $\chi$

Sekarang, apakah rata-rata sampel bootstrap ini merupakan estimasi yang lebih baik dari statistik populasi daripada statistik sampel asli ? Dalam kondisi apa itu akan terjadi?

estimation bootstrap

— Amelio Vazquez-Reina
sumber

Mean dari sampel bootstrap adalah rata-rata sampel dan Anda tidak perlu sampel bootstrap dalam kasus ini.

— Xi'an

Terima kasih @ Xi'an. Saya tidak yakin saya mengikuti. Rata-rata sampel bootstrap dapat berbeda secara numerik dari rata-rata sampel. Apakah Anda mencoba mengatakan bahwa keduanya secara teori masih setara? Bisakah Anda mengkonfirmasi pada kedua ujungnya?

— Amelio Vazquez-Reina

Mari kita perjelas terminologi kita: "sampel bootstrap" dapat merujuk pada sampel-dengan-penggantian tertentu dari data atau dapat merujuk pada variabel acak (multivarian) yang sampel tersebut akan dianggap sebagai satu realisasi. Anda benar bahwa rata-rata realisasi dapat berbeda dari rata-rata data, tetapi @ Xi'an memberikan pengamatan yang lebih relevan bahwa rata-rata variabel acak (yang menurut definisi adalah perkiraan bootstrap dari rata-rata populasi ) harus bersamaan dengan rata-rata data.

— whuber

Maka pertanyaan Anda hampir identik dengan stats.stackexchange.com/questions/126633/… ; satu-satunya perbedaan adalah bahwa realisasi sampel bootstrap dapat tumpang tindih, tetapi analisis yang diberikan dalam jawaban mudah dibawa ke situasi bootstrap, dengan hasil yang sama.

— Whuber

Saya melihat koneksi @whuber, meskipun dalam bootstrap seseorang memiliki "himpunan bagian dengan penggantian" dan realisasi mungkin tumpang tindih, seperti yang Anda katakan. Saya akan membayangkan bahwa distribusi (misalnya pseudorandomness) yang digunakan untuk mendapatkan sampel ulang di bootstrap juga dapat memengaruhi bias estimasi dari sampel bootstrap. Mungkin jawabannya adalah bahwa untuk semua hal praktis perbedaannya dapat diabaikan. Inilah yang menjadi pertanyaan setelah itu: kondisi, kehalusan, dan perbedaan dalam praktik.

— Amelio Vazquez-Reina

Jawaban:

Mari kita menggeneralisasi, sehingga fokus pada inti masalah. Saya akan menguraikan detail terkecil sehingga tidak meninggalkan keraguan. Analisis hanya memerlukan yang berikut ini:

The mean aritmetik dari himpunan bilangan didefinisikan sebagai $z_1, \ldots, z_m$

$\frac{1}{m} (z_{1} + \dots + z_{m}) .$ $\frac{1}{m}\left(z_1 + \cdots + z_m\right).$
Ekspektasi adalah operator linier. Yaitu, ketika adalah variabel acak dan adalah angka, maka ekspektasi dari kombinasi linear adalah kombinasi linear dari ekspektasi, $Z_i, i=1,\ldots,m$ $\alpha_i$

$E (α_{1} Z_{1} + \dots + α_{m} Z_{m}) = α_{1} E (Z_{1}) + \dots + α_{m} E (Z_{m}) .$ $\mathbb{E}\left(\alpha_1 Z_1 + \cdots + \alpha_m Z_m\right) = \alpha_1 \mathbb{E}(Z_1) + \cdots + \alpha_m\mathbb{E}(Z_m).$

Biarkan menjadi sampel diperoleh dari dataset dengan mengambil elemen secara seragam dari dengan penggantian. Mari menjadi mean aritmetik dari . Ini adalah variabel acak. Kemudian $B$ $(B_1, \ldots, B_k)$ $x = (x_1, \ldots, x_n)$ $k$ $x$ $m(B)$ $B$

E (m (B)) = E (\frac{1}{k} (B_{1} + \dots + B_{k})) = \frac{1}{k} (E (B_{1}) + \dots + E (B_{k}))

$\mathbb{E}(m(B)) = \mathbb{E}\left(\frac{1}{k}\left(B_1+\cdots+B_k\right)\right) = \frac{1}{k}\left(\mathbb{E}(B_1) + \cdots + \mathbb{E}(B_k)\right)$

diikuti oleh linearitas harapan. Karena unsur-unsur semuanya diperoleh dengan cara yang sama, mereka semua memiliki harapan yang sama, katakan: $B$ $b$

E (B_{1}) = \dots = E (B_{k}) = b .

$\mathbb{E}(B_1) = \cdots = \mathbb{E}(B_k) = b.$

Ini menyederhanakan hal sebelumnya

E (m (B)) = \frac{1}{k} (b + b + \dots + b) = \frac{1}{k} (k b) = b .

$\mathbb{E}(m(B)) = \frac{1}{k}\left(b + b + \cdots + b\right) = \frac{1}{k}\left(k b\right) = b.$

Menurut definisi, ekspektasi adalah jumlah nilai tertimbang-probabilitas. Karena setiap nilai diasumsikan memiliki peluang yang sama dengan dipilih, $X$ $1/n$

E (m (B)) = b = E (B_{1}) = \frac{1}{n} x_{1} + \dots + \frac{1}{n} x_{n} = \frac{1}{n} (x_{1} + \dots + x_{n}) = \bar{x},

$\mathbb{E}(m(B)) = b = \mathbb{E}(B_1) = \frac{1}{n}x_1 + \cdots + \frac{1}{n}x_n = \frac{1}{n}\left(x_1 + \cdots + x_n\right) = \bar x,$

rata-rata aritmatika data.

$\bar x$ $k=n$ $\bar x$

Untuk statistik yang bukan fungsi linier data, hasil yang sama tidak selalu berlaku. Namun, itu akan salah hanya dengan mengganti rata-rata bootstrap untuk nilai statistik pada data: itu bukan cara kerja bootstrap. Sebagai gantinya, dengan membandingkan rata-rata bootstrap dengan statistik data, kami memperoleh informasi tentang bias statistik. Ini dapat digunakan untuk menyesuaikan statistik asli untuk menghapus bias. Karenanya, estimasi yang dikoreksi bias menjadi kombinasi aljabar dari statistik asli dan rata-rata bootstrap. Untuk informasi lebih lanjut, lihat "BCa" (bootstrap yang dikoreksi dan dipercepat) dan "ABC". Wikipedia menyediakan beberapa referensi.

— whuber
sumber

Maksud Anda, harapan rata-rata bootstrap sama dengan rata-rata data, bukan? Rata-rata bootstrap itu sendiri tidak ditentukan oleh sampel data (asli).

— capybaralet

@ user2429920 Mean bootstrap adalah statistik yang ditentukan oleh sampel. Dalam hal ini identik dengan mean sampel. Harapannya diambil dalam arti distribusi sampling. Saya menduga Anda mungkin menggunakan "ekspektasi" dalam arti yang berbeda relatif terhadap proses komputasi rata-rata bootstrap melalui subsampling berulang dengan penggantian.

— whuber

Saya pikir paragraf terakhir adalah jawaban aktual untuk pertanyaan ini karena bersifat umum dan tidak hanya berfokus pada statistik rata-rata. Saya memiliki keraguan yang sama dengan OP, dan saya tidak menyadari keberadaan BCa. Meskipun demonstrasi dalam jawaban ini tidak banyak membantu saya (saya tidak menggunakan mean sebagai statistik saya) paragraf terakhir sangat jelas tentang inti masalah ini. Saya percaya jawaban Xi'an juga membahas kasus di mana statistik rata-rata digunakan, masalah yang sama. Terima kasih!

— Gabriel

@Gabriel poin bagus. Saya memeriksa catatan: sebelum mengedit, pertanyaan ini awalnya hanya menanyakan tentang rata-rata. Itu sebabnya jawaban tampak begitu fokus pada statistik itu.

— Whuber

Karena distribusi bootstrap didefinisikan sebagai

{\hat{F}}_{n} (x) = \frac{1}{n} \sum_{saya = 1}^{n} {saya}_{X_{saya} \leq x} X_{saya} \overset{iid}{\sim} F (x),

$\hat{F}_n(x) = \frac{1}{n}\sum_{i=1}^n\mathbb{I}_{X_i\le x}\qquad X_i\stackrel{\text{iid}}{\sim}F(x)\,,$ rata-rata distribusi bootstrap adalah

E_{{\hat{F}}_{n}} [X] = \frac{1}{n} \sum_{saya = 1}^{n} X_{saya} = {\bar{X}}_{n}

$\mathbb{E}_{\hat{F}_n}[X]=\frac{1}{n}\sum_{i=1}^n X_i=\bar{X}_ n$ Ketika Anda (jika Anda harus) mengimplementasikan versi simulasi dari harapan ini, yaitu rata-rata undian acak, ada variabilitas Monte Carlo dalam pendekatan ini.

E_{{\hat{F}}_{n}} [X]

$\mathbb{E}_{\hat{F}_n}[X]$ , but its mean (the expactation of the empirical average) and its limit when the number of bootstrap simulations grows to infinity are both exactly

{\bar{X}}_{n}

$\bar{X}_ n$ .

— Xi'an
sumber

+1 This is the answer I originally wanted to write, but feared it might be too opaque for some readers. I nevertheless am glad to see it so elegantly presented. I'm not sure what you mean in your last sentence, though, where you appear to differentiate the "expectation" of the simulated approximation to the mean from its "limit": since the expectation is constant (it does not vary with simulation size), there really isn't any limit to take.

— whuber

@whuber: Thank you for the comment and sorry for writing my terse answer exactly at the same time as yours! Your explanations are certainly more readable by novices in bootstrap. I corrected the final sentence, whose limiting part is the law of large numbers.

— Xi'an

Your use of "mean" in that last sentence is quite ambiguous! I figured it out from your LLN clue. For any finite simulation of the bootstrap distribution, each sample in the simulation produces its own mean (there's one meaning of "mean"). The average of all those samples in a given simulation produces a simulation mean (there's another meaning). The simulation mean converges to a constant as the simulation size grows large, which is the bootstrap mean (a third meaning), and this equals the sample mean (the fourth meaning). (And this estimates the population mean--a fifth meaning!)

— whuber