Memperkirakan probabilitas dalam proses Bernoulli dengan mengambil sampel hingga 10 kegagalan: apakah bias?


15

Misalkan kita memiliki proses Bernoulli dengan probabilitas kegagalan q (yang akan menjadi kecil, katakanlah, q0.01 ) dari mana kita sampel sampai kita menemukan 10 kegagalan. Kami dengan demikian memperkirakan probabilitas kegagalan sebagai q : = 10 / N di mana N adalah jumlah sampel.q^:=10/NN

Pertanyaan : Apakah q sebuah estimasi bias dari q ? Dan, jika demikian, apakah ada cara untuk memperbaikinya?q^q

Saya khawatir bahwa bersikeras sampel terakhir adalah bias yang gagal estimasi.


5
Jawaban saat ini berhenti menyediakan penaksir tidak bias varians minimum . Lihat bagian estimasi pengambilan sampel dan titik artikel Wikipedia tentang distribusi binomial negatif . (101)/(N1)
A. Webb

Jawaban:


10

Memang benar bahwa q adalah estimasi bias q dalam arti bahwa E ( q )q^q , tetapi Anda tidak harus selalu biarkan ini menghalangi Anda. Skenario yang tepat ini dapat digunakan sebagai kritik terhadap gagasan bahwa kita harus selalu menggunakan penduga yang tidak bias, karena di sini bias lebih merupakan artefak dari eksperimen tertentu yang sedang kita lakukan. Data terlihat persis seperti ketika kita telah memilih jumlah sampel di muka, jadi mengapa kesimpulan kita harus berubah?E(q^)q

Menariknya, jika Anda mengumpulkan data dengan cara ini dan kemudian menuliskan fungsi kemungkinan di bawah model binomial (ukuran sampel tetap) dan negatif, Anda akan menemukan bahwa keduanya proporsional satu sama lain. Ini berarti bahwa q hanya biasa estimasi maksimum likelihood di bawah model binomial negatif, yang tentu saja adalah perkiraan yang masuk akal.q^


Bagus! Sepertinya (untuk tujuan saya) bias ini bukan masalah.
becky

9

Itu tidak bersikeras bahwa sampel terakhir adalah kegagalan yang bias estimasi, itu mengambil kebalikan dari N

Jadi dalam contoh Anda tetapi E[10E[N10]=1q. Ini dekat dengan membandingkan rata-rata aritmatika dengan rata-rata harmonikE[10N]q

Kabar buruknya adalah bahwa bias dapat meningkat karena semakin kecil, meskipun tidak banyak sekali q sudah kecil. Berita baiknya adalah bias menurun seiring dengan meningkatnya jumlah kegagalan. Tampaknya jika Anda memerlukan f kegagalan, maka bias dibatasi di atas oleh faktor multiplikasi fqqf untukqkecilff1q ; Anda tidak ingin pendekatan ini ketika Anda berhenti setelah kegagalan pertama

Berhenti setelah kegagalan, dengan q = 0,01 Anda akan mendapatkan E [ N10q=0.01tetapi E[10E[N10]=100, sedangkan denganq=0,001Anda akan mendapatkanE[NE[10N]0.011097q=0.001tetapi E[10E[N10]=1000. Bias sekitar10E[10N]0.001111 faktor multiplikasi 109


7

q^k=10q0=0,02

n_replications <- 10000
k <- 10
failure_prob <- 0.02
n_trials <- k + rnbinom(n_replications, size=k, prob=failure_prob)
all(n_trials >= k)  # Sanity check, cannot have 10 failures in < 10 trials

estimated_failure_probability <- k / n_trials
histogram_breaks <- seq(0, max(estimated_failure_probability) + 0.001, 0.001)
## png("estimated_failure_probability.png")
hist(estimated_failure_probability, breaks=histogram_breaks)
abline(v=failure_prob, col="red", lty=2, lwd=2)  # True failure probability in red
## dev.off()

mean(estimated_failure_probability)  # Around 0.022
sd(estimated_failure_probability)
t.test(x=estimated_failure_probability, mu=failure_prob)  # Interval around [0.0220, 0.0223]

E[q^]0.022q^

histogram of q_hat


1
Itu sangat membantu. Pada level itu, tidak ada gunanya aku mengkhawatirkan.
becky

2
Anda dapat menulis simulasi ini dengan lebih ringkas sebagai10+rnbinom(10000,10,0.02)
A. Webb

@ A. Webb terima kasih, itu poin yang bagus. Saya benar-benar menciptakan kembali roda. Saya perlu membaca? Rnbinom dan kemudian saya akan mengedit posting saya
Adrian

1
Itu pasti 10/(10+rnbinom(10000,10,0.02)). Parameterisasi adalah dalam hal jumlah keberhasilan / kegagalan daripada jumlah total percobaan, jadi Anda harus menambahkan k = 10 kembali. Perhatikan bahwa penaksir tidak bias akan menjadi 9/(9+rnbinom(10000,10,0.02)), satu lebih sedikit di pembilang dan penyebut.
A. Webb
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.