Interval kepercayaan untuk pengambilan sampel Bernoulli

Saya memiliki sampel acak variabel acak Bernoulli , di mana adalah iidrv dan , dan adalah parameter yang tidak diketahui. $X_1 ... X_N$ $X_i$ $P(X_i = 1) = p$ $p$

Jelas, satu dapat menemukan perkiraan untuk : . $p$ $\hat{p}:=(X_1+\dots+X_N)/N$

Pertanyaan saya adalah bagaimana saya bisa membangun interval kepercayaan untuk ? $p$

confidence-interval binomial bernoulli-distribution

— amuba kata Reinstate Monica
sumber

Wikipedia memiliki detail tentang cara menghitung interval kepercayaan untuk pengambilan sampel bernoulli .

Jawaban:

Jika rata-rata, , tidak dekat atau , dan ukuran sampel cukup besar (yaitu dan , kepercayaan Interval dapat diperkirakan dengan distribusi normal dan interval kepercayaan dibangun sebagai berikut: $\hat{p}$ $1$ $0$ $n$ $n\hat{p}>5$ $n(1-\hat{p})>5$

$\hat{p} \pm z_{1 - α / 2} \sqrt{\frac{\hat{p} (1 - \hat{p})}{n}}$ $\hat{p}\pm z_{1-\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$
Jika dan , interval kepercayaan kira-kira (Javanovic dan Levy, 1997) ; kebalikannya berlaku untuk . Referensi juga membahas penggunaan menggunakan dan (yang kemudian memasukkan informasi sebelumnya). $\hat{p} = 0$ $n>30$ $95\%$ $[0,\frac{3}{n}]$ $\hat{p}=1$ $n+1$ $n+b$
Lain Wikipedia memberikan gambaran yang baik dan poin untuk Agresti dan Couli (1998) dan Ross (2003) untuk rincian tentang estimasi selain pendekatan normal, skor Wilson, Clopper-Pearson, atau Agresti-Coull interval. Ini bisa lebih akurat ketika asumsi di atas tentang dan tidak terpenuhi. $n$ $\hat{p}$

R menyediakan fungsi binconf {Hmisc}dan binom.confint {binom}yang dapat digunakan dengan cara berikut:

set.seed(0)
p <- runif(1,0,1)
X <- sample(c(0,1), size = 100, replace = TRUE, prob = c(1-p, p))
library(Hmisc)
binconf(sum(X), length(X), alpha = 0.05, method = 'all')
library(binom)
binom.confint(sum(X), length(X), conf.level = 0.95, method = 'all')

Agresti, Alan; Coull, Brent A. (1998). "Perkiraan lebih baik daripada 'tepat' untuk estimasi interval proporsi binomial". Ahli Statistik Amerika 52: 119-126.

Jovanovic, BD dan PS Levy, 1997. A Look at Rule of Three. The American Statistician Vol. 51, No. 2, hlm. 137-139

Ross, TD (2003). "Interval kepercayaan yang akurat untuk proporsi binomial dan estimasi tingkat Poisson". Komputer dalam Biologi dan Kedokteran 33: 509-531.

— David LeBauer
sumber

(+1) Jawaban yang bagus. Ini akan menjadi referensi untuk pertanyaan serupa di masa depan, saya pikir. Namun, posting silang tidak biasa; sebenarnya, saya percaya itu tidak disukai, karena itu mengacaukan banyak aspek dari sistem umpan balik / referensi / threading / komentar. Harap pertimbangkan untuk menghapus salah satu salinan dan menggantinya dengan tautan dalam komentar.

— whuber

@ terima kasih atas umpan baliknya. Saya telah menghapus salinan lainnya.

— David LeBauer

Dalam rumus pertama, apa itu z1 dan alpha?

— Cirdec

Saya menemukan jawaban untuk pertanyaan saya sendiri: adalah persentil dari distribusi normal standar dan adalah persentil kesalahan. en.wikipedia.org/wiki/Binomial_proportion_confidence_interval

z_{1 - α / 2}

$z_{1-\alpha/2}$

1 - α / 2

${1-\alpha/2}$

α

$\alpha$

— Cirdec

Haruskah itu pada interval kepercayaan untuk titik peluru kedua?

3 / n

$3/n$

— Juan A. Navarro

Interval kepercayaan kemungkinan maksimum

Perkiraan normal untuk sampel Bernoulli bergantung pada memiliki ukuran sampel yang relatif besar dan proporsi sampel yang jauh dari ekor. Estimasi kemungkinan maksimum berfokus pada peluang log-transformed dan ini memberikan interval non-simetris, efisien untuk yang seharusnya digunakan. $p$

Definisikan log-odds sebagai $\hat{\beta}_0 = \log(\hat{p}/(1-\hat{p}))$

1- CI untuk diberikan oleh: $\alpha$ $\beta_0$

CI (β_{0})_{α} = {\hat{β}}_{0} \pm Z_{α / 2} \sqrt{1 / (n \hat{p} (1 - \hat{p})}

$\text{CI}(\beta_0)_\alpha = \hat{\beta}_0 \pm \mathcal{Z}_{\alpha/2} \sqrt{1/(n\hat{p}(1-\hat{p})}$

Dan ini kembali diubah menjadi interval (non-simetris) untuk dengan: $p$

CI (p)_{α} = 1 / (1 + \exp (- CI (β_{0})_{α})

$\text{CI}(p)_\alpha = 1/(1+\exp(-\text{CI}(\beta_0)_\alpha)$

CI ini memiliki manfaat tambahan bahwa proporsi terletak pada interval antara 0 atau 1, dan CI selalu lebih sempit daripada interval normal sambil berada pada level yang benar. Anda bisa mendapatkan ini dengan sangat mudah di R dengan menetapkan:

set.seed(123)
y <- rbinom(100, 1, 0.35)
plogis(confint(glm(y ~ 1, family=binomial)))

    2.5 %    97.5 % 
0.2795322 0.4670450

Interval kepercayaan binomial yang tepat

Dalam sampel kecil, perkiraan normal untuk MLE - sementara lebih baik daripada perkiraan normal untuk proporsi sampel - mungkin tidak dapat diandalkan. Tidak apa-apa. dapat diambil untuk mengikuti kepadatan binomial . Batas untuk dapat ditemukan dengan mengambil persentil ke 2.5 dan 97.5 dari distribusi ini. $Y = n\hat{p}$ $(n,p)$ $\hat{p}$

{CI}_{α} = (F_{\hat{p}}^{- 1} (0.025), F_{\hat{p}}^{- 1} (0.975))

$\text{CI}_\alpha = (F^{-1}_{\hat{p}}(0.025), F^{-1}_{\hat{p}}(0.975))$

Jarang mungkin dilakukan dengan tangan, interval kepercayaan binomial yang tepat dapat diperoleh untuk menggunakan metode komputasi. $p$

qbinom(p = c(0.025, 0.975), size = length(y), prob = mean(y))/length(y)
[1] 0.28 0.47

Interval kepercayaan bias rata-rata

Dan jika adalah 0 atau 1 tepat, penaksir rata-rata median dapat digunakan untuk mendapatkan estimasi interval non-singular berdasarkan fungsi probabilitas rata-rata tidak bias. Anda dapat dengan mudah mengambil batas bawah dari case all-0 sebagai 0 WLOG. Batas atas adalah proporsi yang memenuhi: $p$ $p_{1-\alpha/2}$

p_{1 - α / 2} : P (Y = 0) / 2 + P (Y > y) > 0.975

$p_{1-\alpha/2} : P(Y = 0)/2 + P(Y > y) > 0.975$

Ini juga merupakan rutinitas komputasi.

set.seed(12345)
y <- rbinom(100, 1, 0.01) ## all 0
cil <- 0
mupfun <- function(p) {
  0.5*dbinom(0, 100, p) + 
    pbinom(1, 100, p, lower.tail = F) - 
    0.975
} ## for y=0 successes out of n=100 trials
ciu <- uniroot(mupfun, c(0, 1))$root
c(cil, ciu)

[1] 0.00000000 0.05357998 ## includes the 0.01 actual probability

Dua metode terakhir diimplementasikan dalam epitoolspaket di R.

— AdamO
sumber