Kapan estimasi bootstrap dari bias valid?


31

Sering diklaim bahwa bootstrap dapat memberikan perkiraan bias dalam estimator.

Jika adalah estimasi untuk beberapa statistik, dan adalah replika bootstrap (dengan ), maka estimasi bootstrap dari bias adalah yang tampaknya sangat sederhana dan kuat, sampai-sampai mengganggu ketenangan. ~ t ii{1,,N}biast1t^t~ii{1,,N}

biast1Nit~it^

Saya tidak bisa memahami bagaimana hal ini dimungkinkan tanpa memiliki penduga statistik yang tidak bias. Sebagai contoh, jika estimator saya hanya mengembalikan konstanta yang independen terhadap pengamatan, estimasi bias di atas jelas tidak valid.

Walaupun contoh ini bersifat patologis, saya tidak bisa melihat apa asumsi yang masuk akal tentang estimator dan distribusi yang akan menjamin bahwa estimasi bootstrap masuk akal.

Saya mencoba membaca referensi formal, tetapi saya bukan ahli statistik atau ahli matematika, jadi tidak ada yang diklarifikasi.

Adakah yang bisa memberikan ringkasan tingkat tinggi tentang kapan perkiraan dapat diharapkan valid? Jika Anda tahu referensi yang baik tentang hal itu juga akan bagus.


Edit:

Kelancaran estimator sering dikutip sebagai persyaratan agar bootstrap berfungsi. Mungkinkah seseorang juga memerlukan semacam keterbalikan lokal dari transformasi? Peta konstan jelas tidak memuaskan itu.


2
Penaksir konstan adalah penaksir yang tidak bias dari konstanta itu sehingga wajar jika penaksir bootstrap dari bias adalah nol.
Xi'an

Jawaban:


4

Masalah yang Anda gambarkan adalah masalah interpretasi, bukan validitas. Perkiraan bias bootstrap untuk estimator konstan Anda tidak tidak valid, itu sebenarnya sempurna.

Estimasi bootstrap bias adalah antara estimator θ = s ( x ) dan parameter θ = t ( F ) , di mana F adalah beberapa distribusi tidak diketahui dan x sampel dari F . Fungsi t ( F ) adalah sesuatu yang pada prinsipnya dapat Anda hitung jika Anda memiliki populasi. Beberapa kali kita mengambil s ( x ) = t ( F ) , plug-in perkiraan t (θ^=s(x)θ=t(F),FxFt(F)s(x)=t(F^), menggunakan distribusi empiris F di tempat F . Ini mungkin yang Anda uraikan di atas. Dalam semua kasus estimasi bootstrap bias adalah b i a s F = E F [ s ( x * ) ] - t ( F ) , di mana x * adalah sampel bootstrap dari x .t(F)F^F

biasF^=EF^[s(x)]t(F^),
xx

Konstanta adalah plug-in yang sempurna perkiraan yang konstan yang sama:c Populasi adalah dan sampel ~ F , distribusi empiris, yang mendekati F . Jika Anda bisa mengevaluasi t ( F ) = c , Anda akan mendapatkan c . Ketika Anda menghitung plug-in estimasi t ( F ) = c Anda juga mendapatkan c . Tidak bias, seperti yang Anda harapkan.FF^Ft(F)=cct(F^)=cc

Kasus yang terkenal di mana ada bias dalam plug-in estimasi adalah dalam memperkirakan varians, maka koreksi Bessel ini. Di bawah ini saya tunjukkan ini. Perkiraan bias bootstrap tidak terlalu buruk: t(F^)

library(plyr)

n <- 20
data <- rnorm(n, 0, 1)

variance <- sum((data - mean(data))^2)/n

boots <- raply(1000, {
  data_b <- sample(data, n, replace=T)
  sum((data_b - mean(data_b))^2)/n
})

# estimated bias
mean(boots) - variance 
#> [1] -0.06504726

# true bias:
((n-1)/n)*1 -1
#> [1] -0.05

Kita bisa menggunakan sebagai mean populasi dan s ( x ) = c , situasi di mana dalam kebanyakan kasus harus ada bias yang jelas: t(F)s(x)=c

library(plyr)

mu <- 3
a_constant <- 1

n <- 20
data <- rnorm(n, mu, 1)

boots <- raply(1000, {
  # not necessary as we will ignore the data, but let's do it on principle
  data_b <- sample(data, n, replace=T)

  a_constant
})

# estimated bias
mean(boots) - mean(data) 
#> [1] -1.964877

# true bias is clearly -2

Sekali lagi perkiraan bootstrap tidak terlalu buruk.


Saya telah menambahkan jawaban ini karena jawaban lain tampaknya menerima begitu saja bahwa itu adalah masalah bahwa estimasi bootstrap bias adalah 0 ketika adalah konstanta. Saya tidak percaya itu. t
einar

Saya menyukai jawaban dan demo Anda, tetapi saya rasa definisi Anda tidak benar "Perkiraan bias bootstrap adalah perkiraan bias antara fungsi sampel Anda dan fungsi yang sama yang dievaluasi dalam populasi." Sementara apa yang Anda tulis didefinisikan dengan baik, jika ini adalah definisi, tidak akan ada cara untuk menggunakan bootstrap untuk memperkirakan bias, misalnya, varians sampel sebagai penaksir untuk varians populasi.
DavidR

@ DavidvidR Anda benar, terima kasih telah memberikan komentar. Saya telah memperbarui jawabannya.
einar

Saya sangat suka langgan ini! Satu-satunya pertanyaan saya adalah tentang "estimasi bias bootstrap". Saya pikir apa yang Anda tulis adalah bias yang sebenarnya dari estimator (tetapi untuk distribusi empiris daripada distribusi yang benar), karena Anda mengambil ekspektasi atas sampel bootstrap. Saya pikir estimator bootstrap akan menjadi jumlah yang terbatas dibandingkan sampel bootstrap B?
DavidR

1
@ DavidR saya senang Anda lakukan! Apa yang saya melaporkan secara teknis estimasi bootstrap bias (karena Anda menggunakan di tempat θ dan harapan bootstrap dari s ( ) di tempat harapan yang lebih F ). Namun dalam aplikasi praktis yang paling E F [ s ( x * ) ] adalah keras dan kami perkiraan dengan Monte Carlo seperti yang Anda katakan. t(F^)θs()FEF^[s(x)]
einar

3

Anda membuat satu kesalahan dan mungkin itu alasannya membingungkan. Kamu bilang:

jika estimator saya hanya mengembalikan konstanta yang tidak tergantung pada pengamatan, estimasi bias di atas jelas tidak valid

Bootstrap bukan tentang seberapa banyak metode Anda bias, tetapi seberapa banyak hasil Anda diperoleh oleh beberapa fungsi, mengingat data Anda bias.

Jika Anda memilih metode statistik yang sesuai untuk menganalisis data Anda, dan semua asumsi metode ini dipenuhi, dan Anda melakukan perhitungan dengan benar, maka metode statistik Anda akan memberi Anda perkiraan "terbaik" yang mungkin dapat diperoleh dengan menggunakan data Anda .

Gagasan bootstrap adalah untuk mengambil sampel dari data Anda dengan cara yang sama seperti Anda mengambil sampel dari populasi Anda - jadi ini adalah semacam replikasi dari sampel Anda. Ini memungkinkan Anda untuk mendapatkan perkiraan distribusi (menggunakan kata-kata Efrons) dari nilai Anda dan karenanya untuk menilai bias estimasi Anda.

Namun, saya berpendapat bahwa contoh Anda menyesatkan sehingga bukan contoh terbaik untuk membahas bootstrap. Karena ada kesalahpahaman di kedua sisi, izinkan saya memperbarui jawaban saya dan menuliskannya dengan cara yang lebih formal untuk mengilustrasikan poin saya.

θ^θ

bias(θ^n)=Eθ(θ^n)θ

dimana:

θ^n=g(x1,x2,...,xn)

g()

Seperti yang ditulis oleh Larry Wasserman dalam bukunya "All the Statistics" :


θ^nθθ^nPθ

xg(X)=λθλλ=θ

θ^nθn


5
Saya khawatir jawaban ini sepertinya ditakdirkan untuk menabur kebingungan. Penaksir konstan adalah penaksir menurut sebagian besar definisi - dan dalam beberapa kasus bahkan merupakan yang diterima. Pertanyaan Anda mengacaukan bias sampel dengan bias estimasi, yang pasti membingungkan sebagian besar pembaca. Paragraf Anda tentang "perkiraan terbaik" bagus, tetapi mengajukan pertanyaan penting tentang bagaimana mengukur "terbaik." Bias hanya satu komponen dari itu (jika ada).
whuber

Meskipun saya tidak cukup memenuhi syarat untuk menjawab OP, saya khawatir Whuber benar. Juga, apakah valid menyebut populasi berarti penaksir? Terkait dengan kalimat terakhir, saya pikir boostrap memberikan estimasi bias estimator yang sedang dianalisis dan bukan metode sampling.
mugen

Saya mengerti bahwa bootstrap tidak dapat mendeteksi kesalahan sistematis, tetapi setidaknya dalam batas tertentu seharusnya mendeteksi bias statistik. Saya kira poin Anda adalah tentang perbedaan dalam membedakan antara keduanya, tetapi itu masih belum jelas bagi saya. Anda tampaknya berbicara tentang gagasan bias yang belum pernah saya dengar - bukan tentang estimator, tetapi tentang data. Apa definisi formal dari gagasan bias ini?
Bootstrapped

3
λθ λ-θ

8
θ^0n<10100

3

t

bsayaSebuahst1Nsayat~saya-t

Anda ingin menggunakan statistik aktual yang dievaluasi pada distribusi empiris (ini seringkali mudah, karena sampel asli adalah himpunan terbatas), daripada perkiraan. Dalam beberapa kasus, ini mungkin sama (misalnya, rata-rata empiris sama dengan rata-rata sampel), tetapi mereka tidak akan secara umum. Anda memberikan satu kasus di mana mereka berbeda, tetapi contoh yang kurang patologis adalah penaksir tidak bias yang biasa untuk varians, yang tidak sama dengan varians populasi ketika diterapkan pada distribusi terbatas.

t

TL / DR: Metode bootstrap tidak ajaib. Untuk mendapatkan estimasi bias yang tidak bias, Anda harus dapat menghitung parameter bunga tepat pada distribusi yang terbatas.


1
Saya tidak yakin tentang arti notasi Anda. Menurut catatan kuliah ini oleh Pete Hall (UC Davis), catatan kuliah ini oleh Cosma Shalizi (CMU), dan halaman buku Efron dan Tibshirani ini tampaknya menunjukkan bahwa apa yang saya lakukan tidak salah, hanya saja tidak sepenuhnya umum (yaitu, saya Saya menggunakan plug in estimator di sini, tetapi itu tidak perlu).
Bootstrapped

t=t^θ(F1)tθ^t^tt
Evan Wright

t=t^

1
tN

ttt~sayat

0

Saya merasa berguna untuk memikirkan prosedur bootstrap dalam hal fungsional distribusi yang mereka operasikan - saya memberikan contoh dalam jawaban ini untuk pertanyaan bootstrap yang berbeda.

Taksiran yang Anda berikan adalah apa adanya - taksiran. Tidak ada yang mengatakan itu tidak menderita masalah yang mungkin dimiliki perkiraan statistik. Ini akan memberi Anda estimasi bias nol untuk mean sampel, misalnya, yang kita semua tahu tidak memihak untuk memulai. Salah satu masalah dengan penaksir bias ini adalah bahwa ia menderita dari variabilitas sampling ketika bootstrap diimplementasikan sebagai Monte Carlo daripada enumerasi lengkap semua subsampel yang mungkin (dan bagaimanapun juga, tidak ada yang bootstrap teoretis itu dalam praktiknya).

BB


7
Saya pikir pertanyaan asli Bootstrapped adalah ortogonal untuk masalah variabilitas Monte Carlo. Bahkan jika kita mengambil jumlah replikasi bootstrap hingga tak terbatas, rumus dalam pertanyaan akan memberikan estimasi nol untuk bias dari estimator konstan, dan akan memberikan estimasi nol untuk bias estimasi varians bias biasanya.
Evan Wright
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.