Bagaimana cara mendapatkan interval kepercayaan untuk persentil?

Saya memiliki banyak nilai data mentah yang merupakan jumlah dolar dan saya ingin mencari interval kepercayaan untuk persentil dari data itu. Apakah ada formula untuk interval kepercayaan diri seperti itu?

confidence-interval quantiles tolerance-interval

— Grafik
sumber

Jawaban:

Pertanyaan ini, yang mencakup situasi umum, layak mendapatkan jawaban sederhana dan tidak perkiraan. Untungnya ada satu.

Misalkan adalah nilai independen dari distribusi yang tidak diketahui yang quantile saya akan menulis . Ini berarti setiap memiliki peluang (setidaknya) kurang dari atau sama dengan . Akibatnya jumlah kurang dari atau sama dengan memiliki distribusi Binomial . $X_1, \ldots, X_n$ $F$ $q^\text{th}$ $F^{-1}(q)$ $X_i$ $q$ $F^{-1}(q)$ $X_i$ $F^{-1}(q)$ $(n,q)$

Termotivasi oleh pertimbangan sederhana ini, Gerald Hahn dan William Meeker dalam Interval Statistik buku pegangan mereka (Wiley 1991) menulis

Interval kepercayaan 100 distribusi bebas dua sisi untuk diperoleh ... seperti $100(1-\alpha)\%$ $F^{-1}(q)$ $[X_{(l)}, X_{(u)}]$

di mana adalah statistik urutan sampel. Mereka melanjutkan untuk mengatakan $X_{(1)}\le X_{(2)}\le \cdots \le X_{(n)}$

Seseorang dapat memilih bilangan bulat simetris (atau hampir simetris) di sekitar dan sedekat mungkin tergantung pada persyaratan yang $0 \le l \le u \le n$ $q(n+1)$
$\begin{matrix} (1) & B (u - 1; n, q) - B (l - 1; n, q) \geq 1 - α . \end{matrix}$ $B(u-1;n,q) - B(l-1;n,q) \ge 1-\alpha.\tag{1}$

Ekspresi di sebelah kiri adalah peluang bahwa variabel Binomial memiliki salah satu nilai . Jelas, ini adalah kesempatan bahwa jumlah nilai data jatuh dalam lebih rendah dari distribusi tidak terlalu kecil (kurang dari ) atau terlalu besar ( atau lebih besar). $(n,q)$ $\{l, l+1, \ldots, u-1\}$ $X_i$ $100q\%$ $l$ $u$

Hahn dan Meeker mengikuti dengan beberapa komentar berguna, yang akan saya kutip.

Interval sebelumnya adalah konservatif karena tingkat kepercayaan aktual, yang diberikan oleh sisi kiri Persamaan , lebih besar dari nilai yang ditentukan . ... $(1)$ $1-\alpha$

Terkadang mustahil untuk membangun interval statistik bebas distribusi yang setidaknya memiliki tingkat kepercayaan yang diinginkan. Masalah ini sangat akut ketika memperkirakan persentil di ekor distribusi dari sampel kecil. ... Dalam beberapa kasus, analis dapat mengatasi masalah ini dengan memilih dan simetris. Alternatif lain mungkin menggunakan tingkat kepercayaan yang dikurangi. $l$ $u$

Mari kita bekerja melalui contoh (juga disediakan oleh Hahn & Meeker). Mereka memasok serangkaian "pengukuran senyawa dari proses kimia" dan meminta interval kepercayaan untuk persentil. Mereka mengklaim dan akan bekerja. $n=100$ $100(1-\alpha)=95\%$ $q=0.90$ $l=85$ $u=97$

Probabilitas total interval ini, seperti yang ditunjukkan oleh bilah biru pada gambar, adalah : sedekat yang bisa dicapai hingga , namun masih di atasnya, dengan memilih dua cutoff dan menghilangkan semua peluang di ekor kiri dan ekor kanan yang berada di luar batas itu. $95.3\%$ $95\%$

Berikut adalah data, ditunjukkan dalam urutan, meninggalkan dari nilai-nilai dari tengah: $81$

\begin{matrix} 1.49 & 1.66 & 2.05 & \dots & 24.33 & 24.72 & 25.46 & 25.67 & 25.77 & 26.64 \\ 28.28 & 28.28 & 29.07 & 29.16 & 31.14 & 31.83 & 33.24 & 37.32 & 53.43 & 58.11 \end{matrix}

$\matrix{ 1.49&1.66&2.05&\ldots&\mathbf {24.33}&24.72&25.46&25.67&25.77&26.64\\ 28.28&28.28&29.07&29.16&31.14&31.83&\mathbf{33.24}&37.32&53.43&58.11}$

The terbesar adalah dan terbesar adalah . Intervalnya adalah . $85^\text{th}$ $24.33$ $97^\text{th}$ $33.24$ $[24.33, 33.24]$

Mari kita tafsirkan ulang itu. Prosedur ini seharusnya memiliki setidaknya peluang untuk mencakup persentil . Jika persentil itu benar-benar melebihi , itu berarti kita akan mengamati atau lebih dari nilai dalam sampel kami yang di bawah persentil . Terlalu banyak. Jika persentil itu kurang dari , itu berarti kita akan mengamati atau lebih sedikit nilai dalam sampel kami yang di bawah persentil . Itu terlalu sedikit. $95\%$ $90^\text{th}$ $33.24$ $97$ $100$ $90^\text{th}$ $24.33$ $84$ $90^\text{th}$ Dalam kedua kasus - persis seperti yang ditunjukkan oleh bilah merah pada gambar - itu akan menjadi bukti terhadap persentil dalam interval ini. $90^\text{th}$

Salah satu cara untuk menemukan pilihan dan adalah dengan mencari sesuai dengan kebutuhan Anda. Berikut adalah metode yang dimulai dengan interval perkiraan simetris dan kemudian mencari dengan memvariasikan baik dan hingga untuk menemukan interval dengan cakupan yang baik (jika mungkin). Diilustrasikan dengan kode. Sudah diatur untuk memeriksa cakupan pada contoh sebelumnya untuk distribusi Normal. Outputnya adalah $l$ $u$ $l$ $u$ $2$ R

Cakupan rata-rata simulasi adalah 0,9503; cakupan yang diharapkan adalah 0,9523

Kesepakatan antara simulasi dan ekspektasi sangat baik.

#
# Near-symmetric distribution-free confidence interval for a quantile `q`.
# Returns indexes into the order statistics.
#
quantile.CI <- function(n, q, alpha=0.05) {
  #
  # Search over a small range of upper and lower order statistics for the 
  # closest coverage to 1-alpha (but not less than it, if possible).
  #
  u <- qbinom(1-alpha/2, n, q) + (-2:2) + 1
  l <- qbinom(alpha/2, n, q) + (-2:2)
  u[u > n] <- Inf
  l[l < 0] <- -Inf
  coverage <- outer(l, u, function(a,b) pbinom(b-1,n,q) - pbinom(a-1,n,q))
  if (max(coverage) < 1-alpha) i <- which(coverage==max(coverage)) else
    i <- which(coverage == min(coverage[coverage >= 1-alpha]))
  i <- i[1]
  #
  # Return the order statistics and the actual coverage.
  #
  u <- rep(u, each=5)[i]
  l <- rep(l, 5)[i]
  return(list(Interval=c(l,u), Coverage=coverage[i]))
}
#
# Example: test coverage via simulation.
#
n <- 100      # Sample size
q <- 0.90     # Percentile
#
# You only have to compute the order statistics once for any given (n,q).
#
lu <- quantile.CI(n, q)$Interval
#
# Generate many random samples from a known distribution and compute 
# CIs from those samples.
#
set.seed(17)
n.sim <- 1e4
index <- function(x, i) ifelse(i==Inf, Inf, ifelse(i==-Inf, -Inf, x[i]))
sim <- replicate(n.sim, index(sort(rnorm(n)), lu))
#
# Compute the proportion of those intervals that cover the percentile.
#
F.q <- qnorm(q)
covers <- sim[1, ] <= F.q & F.q <= sim[2, ]
#
# Report the result.
#
message("Simulation mean coverage was ", signif(mean(covers), 4), 
        "; expected coverage is ", signif(quantile.CI(n,q)$Coverage, 4))

— whuber
sumber

Penurunan

The -quantile (ini adalah konsep yang lebih umum daripada persentil) dari suatu variabel acak diberikan oleh . Contoh pendamping dapat ditulis sebagai - ini hanya sampel kuantil. Kami tertarik pada distribusi: $\tau$ $q_\tau$ $X$ $F_X^{-1}(\tau)$ $\hat{q}_\tau = \hat{F}^{-1}(\tau)$

$\sqrt{n}(\hat{q}_\tau - q_\tau)$

Pertama, kita membutuhkan distribusi asimptotik dari cirik empiris.

Karena , Anda dapat menggunakan teorema limit pusat. adalah variabel acak , jadi rata-rata adalah dan adalah . $\hat{F}(x) = \frac{1}{n} \sum 1\{X_i < x\}$ $1\{X_i < x\}$ $P(X_i < x) = F(x)$ $F(x)(1-F(x))$

$\sqrt{n}(\hat{F}(x) - F(x)) \rightarrow N(0, F(x)(1-F(x))) \qquad (1)$

Sekarang, karena invers adalah fungsi kontinu, kita dapat menggunakan metode delta.

[** Metode delta mengatakan bahwa jika , dan adalah fungsi kontinu, maka **] $\sqrt{n}(\overline{y} - \mu_y) \rightarrow N(0,\sigma^2)$ $g(\cdot)$ $\sqrt{n}(g(\overline{y}) - g(\mu_y)) \rightarrow N(0, \sigma^2 (g'(\mu_y))^2)$

Di sisi kiri (1), ambil , dan $x=q_\tau$ $g(\cdot) = F^{-1}(\cdot)$

$\sqrt{n}(F^{-1}(\hat{F}(q_\tau)) - F^{-1}(F(q_\tau))) = \sqrt{n}(\hat{q}_\tau - q_\tau)$

[** catat bahwa ada sedikit tangan dalam langkah terakhir karena , tetapi keduanya asimtotik sama jika membosankan untuk ditampilkan **] $F^{-1}(\hat{F}(q_\tau)) \neq \hat{F}^{-1}(\hat{F}(q_\tau)) = \hat{q}_\tau$

Sekarang, terapkan metode delta yang disebutkan di atas.

Karena (fungsi terbalik dalil) $\frac{\textrm{d}}{\textrm{d}x} F^{-1}(x) = \frac{1}{f(F^{-1}(x))}$

$\sqrt{n}(\hat{q}_\tau - q_\tau) \rightarrow N\left(0, \frac{F(q_\tau)(1-F(q_\tau))}{f(F^{-1}(F(q_\tau)))^2}\right) = N\left(0, \frac{F(q_\tau)(1-F(q_\tau))}{f(q_\tau)^2}\right)$

Kemudian, untuk membangun interval kepercayaan, kita perlu menghitung kesalahan standar dengan memasukkan sampel rekan dari setiap istilah dalam varian di atas:

Hasil

Jadi $se(\hat{q}_\tau) = \sqrt{\frac{\hat{F}(\hat{q}_\tau)(1-\hat{F}(\hat{q}_\tau))}{n \hat{f}(\hat{q}_\tau)^2}} =$ $\sqrt{\frac{\tau (1 - \tau)}{n \hat{f}(\hat{q}_\tau)^2}}$

Dan $CI_{0.95}(\hat{q}_\tau) = \hat{q}_\tau \pm 1.96 se(\hat{q}_\tau)$

Ini akan mengharuskan Anda untuk memperkirakan kepadatan , tetapi ini harus cukup mudah. Atau, Anda juga bisa mem-bootstrap CI dengan mudah. $X$

— bmciv
sumber

Bisakah Anda memperluas jawaban Anda dengan konten dari artikel yang ditautkan? Tautan mungkin tidak berfungsi selamanya dan kemudian jawaban ini akan menjadi kurang bermanfaat

— Andy

Apa keuntungan dari hasil asimptotik ini berdasarkan pada estimasi kepadatan dibandingkan dengan distribusi bebas cibased pada distribusi binomial?

— Michael M

Apakah ini masih berdasarkan artikel yang Anda tautkan pada awalnya ?

— Nick Stauner

Ya, haruskah saya menambahkan tautan itu kembali? Saya pikir ini adalah hasil yang terkenal. Saya pernah melihatnya di kelas sebelumnya dan tidak sulit untuk menemukannya oleh google. Dalam kasus seperti ini, apakah lebih baik untuk menautkannya atau mengetiknya, atau keduanya?

— bmciv

Saya akan mengatakan keduanya, dan Anda harus mengeditnya kembali jika ini dikutip / berasal sepenuhnya dari itu demi atribusi yang tepat. Kalau tidak, mungkin tidak masalah apakah Anda mengeditnya, tetapi secara umum, kebijakan Stack Exchange adalah untuk mencegah jawaban hanya tautan untuk menghindari pembusukan tautan dan sebagai prinsipnya (idenya adalah menjadi repositori independen, bukan indeks tautan - tetapi Saya tidak yakin berapa banyak skenario yang lebih dari sekadar "lereng licin" imajiner).

— Nick Stauner