Interval kepercayaan untuk median

Saya memiliki distribusi sampel dengan sejumlah kecil nilai di masing-masing (kurang dari ). Saya telah menghitung median untuk setiap sampel, yang ingin saya bandingkan dengan model dan mendapatkan perbedaan antara model dan median masing-masing sampel. Untuk mendapatkan hasil yang konsisten, saya memerlukan kesalahan pada perbedaan ini. $10$

Hasilnya menemukan bahwa standar deviasi dalam kasus seperti itu bisa sangat sulit, setidaknya untuk non-pro seperti saya (lihat contoh di sini ).

Saya telah menemukan situs web ini yang mengatakan bagaimana cara menghitung interval kepercayaan untuk median, bahkan jika tidak ada referensi resmi yang dikutip.

Tampaknya masuk akal bagi saya, tetapi saya tidak bisa menilai, jadi saya ingin tahu:

apakah formula itu benar?
Ada referensi untuk itu?
Bagaimana jika saya ingin menemukan CI berbeda dari ? $95\%$

Terima kasih sebelumnya

EDIT: Saya juga menemukan contoh bootstrap ini untuk data non-Gaussian . Sekarang, saya tidak tahu banyak tentang bootstrap, tetapi akan lebih baik memiliki alamat tentang validitasnya.

confidence-interval standard-error median

— Py-ser
sumber

Distribusi pengambilan sampel yang tepat dari median sampel diperoleh di stats.stackexchange.com/questions/45124 . (Distribusi asimptotik diberikan dalam sebagian besar jawaban juga, tetapi itu tidak mungkin relevan di sini.) Namun, keduanya tidak sama dengan interval kepercayaan, ...

— whuber

@whuber, terima kasih atas tautannya, tetapi saya tidak dapat menangkap hubungannya. Bisakah Anda lebih jelas?

— Py-ser

Untuk menemukan interval kepercayaan (CI) untuk suatu parameter, menggunakan statistik tertentu, Anda perlu mengetahui distribusi sampling dari statistik itu. Di sini Anda mencari CI untuk median populasi (parameter) berdasarkan sampel dan Anda bertanya secara spesifik mengenai median sampel (statistik). (Referensi utas saya membahas pertanyaan terakhir.) Sangat penting untuk mengetahui distribusi statistik yang tepat; dari situlah prosedur interval kepercayaan dapat diturunkan. Hasil asimptotik - yang menjadi dasar referensi Anda sendiri - berisiko menjadi perkiraan yang buruk untuk ukuran sampel kecil.

— whuber

Statistiknya adalah Poissonian. Tapi saya belum mengerti: apa hasil asimptotik yang Anda rujuk? Apakah formula itu merupakan kasus tertentu?

— Py-ser

Saya kira Anda belum membaca jawaban saya di utas itu, karena itu memberikan hasil yang tepat untuk sejumlah pengamatan: "Ini adalah formula tepat untuk distribusi median untuk setiap distribusi berkelanjutan."

— whuber

Ringkasan

Ketika Anda dapat mengasumsikan sedikit atau tidak sama sekali tentang hukum probabilitas sejati, dan dapat menyimpulkan sedikit tentangnya - yang merupakan kasus untuk sampel kecil dari pengamatan - maka sepasang statistik pesanan yang sesuai akan membentuk interval kepercayaan untuk median. Statistik pesanan mana yang dipilih dapat dengan mudah ditemukan dengan analisis cepat dari distribusi Binomial . Ada beberapa pilihan yang harus dilakukan dalam praktik: ini dibahas dan diilustrasikan pada akhir posting ini. $n$ $(n, 1/2)$

Secara kebetulan, analisis yang sama dapat digunakan untuk membangun interval kepercayaan untuk kuantil apa pun (di mana median, sesuai dengan , adalah salah satu contoh). Distribusi Binomial mengatur solusi dalam kasus ini. $q$ $q=50\%$ $(n, q)$

pengantar

Ingat apa arti interval kepercayaan diri (CI). Pengaturan adalah sampel acak independen dengan setiap diatur oleh distribusi yang sama . Diasumsikan hanya bahwa adalah salah satu elemen dari himpunan dari distribusi yang mungkin. Masing-masing dari mereka memiliki median . Untuk setiap tetap antara dan , CI level adalah sepasang fungsi (alias "statistik"), dan , sedemikian rupa sehingga $X = (X_1, X_2, \ldots, X_n)$ $X_i$ $F$ $F$ $\Omega$ $F_{1/2}$ $\alpha$ $0$ $1$ $\alpha$ $L$ $U$

{Pr}_{F} (L (X) \leq F_{1 / 2} \leq U (X)) \geq 1 - α .

${\Pr}_F(L(X)\le F_{1/2} \le U(X)) \ge 1 - \alpha.$

Sisi kanan adalah cakupan dari CI untuk distribusi . $F$

Selain itu: agar ini bermanfaat, kami juga lebih suka bahwa (1) maksimum pertanggungan di atas sekecil mungkin dan (2) panjang interval yang diharapkan, , seharusnya cenderung singkat untuk semua atau "paling" . $F\in\Omega$ $\mathbb{E}_F(U(X)-L(X))$ $F\in\Omega$

Analisis

Misalkan kita tidak berasumsi tentang . $\Omega$ Dalam situasi ini kita masih dapat mengeksploitasi statistik pesanan . Ini adalah nilai spesifik dalam sampel yang diurutkan. Untuk menyederhanakan notasi, mari urutkan sampel sekali dan untuk semua sehingga

X_{1} \leq X_{2} \leq \dots \leq X_{n} .

$X_1 \le X_2 \le \cdots \le X_n.$

Nilai adalah statistik urutan dari sampel. Karena kita tidak mengasumsikan apa pun tentang , kita tidak tahu apa-apa tentang pada awalnya, jadi kita tidak dapat menyimpulkan banyak tentang kemungkinan interval antara masing-masing dan tetangganya . Namun, kami masih dapat bernalar secara kuantitatif tentang nilai-nilai individual: berapa peluang tidak melebihi median ? Untuk mengetahuinya, biarkan menjadi variabel acak yang diatur oleh , dan biarkan $X_i$ $i^\text{th}$ $\Omega$ $F$ $X_i$ $X_{i+1}$ $X_i$ $F$ $Y$ $F$

π_{F} = {Pr}_{F} (Y \leq F_{1 / 2})

$\pi_F = {\Pr}_F(Y \le F_{1/2})$

menjadi kesempatan yang tidak melebihi rata-rata . Kemudian ketika kita tahu (karena ) bahwa sampel asli kami dari nilai harus berisi setidaknya nilai tidak melebihi . $Y$ $F$ $X_i \le F_{1/2}$ $X_1\le \cdots \le X_i \le F_{1/2}$ $n$ $i$ $F_{1/2}$

Ini adalah masalah Binomial. Secara formal, jika kita mendefinisikan variabel acak menjadi sama dengan ketika dan sebaliknya, hal di atas menunjukkan bahwa memiliki distribusi Bernoulli dengan parameter . "Keberhasilan" terdiri dari mengamati nilai pada atau di bawah median. Oleh karena itu diberikan oleh probabilitas Binomial yang terkait dengan lebih sedikit dari berhasil: $Z$ $1$ $Y \le F_{1/2}$ $0$ $Z$ $\pi_F$ $\Pr(X_i \gt F_{1/2})$ $i$

Pr (X_{i} > F_{1 / 2}) = \sum_{j = 0}^{i - 1} (\binom{n}{j}) π_{F}^{j} (1 - π_{F})^{n - j} .

$\Pr(X_i \gt F_{1/2}) = \sum_{j=0}^{i-1} \binom{n}{j} \pi_F^j(1-\pi_F)^{n-j}.$

Anda mungkin memperhatikan bahwa . Bahkan, untuk banyak distribusi kedua nilai sama: mereka hanya berbeda ketika memberikan probabilitas positif ke median . Untuk menganalisis perbedaannya, tulis untuk . Untuk ini berarti ini $\pi_F \ge 1/2$ $F$ $F_{1/2}$ $\pi_F = 1/2 + \varepsilon$ $\varepsilon \ge 0$ $2(j-1) \le n$

\begin{aligned} π_{F}^{j} (1 - π_{F})^{n - j} & = (1 / 2 + ε)^{j} (1 / 2 - ε)^{n - j} = (1 / 2 + ε)^{j} [(1 / 2 - ε)^{j} (1 / 2 - ε)^{n - 2 j}] \\ = (1 / 4 - ε^{2})^{j} (1 / 2 - ε)^{n - 2 j} \leq (1 / 4)^{j} (1 / 2)^{n - 2 j} = 2^{- n} . \end{aligned}

$\eqalign{ \pi_F^j(1-\pi_F)^{n-j} &= (1/2+\varepsilon)^j(1/2-\varepsilon)^{n-j} = (1/2+\varepsilon)^j[(1/2-\varepsilon)^j(1/2-\varepsilon)^{n-2j}]\\ &=(1/4-\varepsilon^2)^j(1/2-\varepsilon)^{n-2j} \le (1/4)^j(1/2)^{n-2j}=2^{-n}. }$

Akibatnya, ketika , kami dapat menghilangkan ketergantungan jumlah pada , dengan biaya mengganti kesetaraan dengan ketidaksetaraan: $2(i-1) \le n$ $F$

Pr (X_{i} > F_{1 / 2}) \leq 2^{- n} \sum_{j = 0}^{i - 1} (\binom{n}{j}) .

$\Pr(X_i \gt F_{1/2}) \le 2^{-n}\sum_{j=0}^{i-1} \binom{n}{j}.$

Argumen yang persis sama (diterapkan dengan membalik statistik urutan) menunjukkan bahwa ketika , $2(i+1) \ge n$

Pr (X_{i} < F_{1 / 2}) \leq 2^{- n} \sum_{j = i + 1}^{n} (\binom{n}{j}) .

$\Pr(X_i \lt F_{1/2}) \le 2^{-n}\sum_{j=i+1}^n \binom{n}{j}.$

Sisi kanan berkurang menjadi nol setiap kali (dalam kasus pertama) atau (dalam yang kedua). Oleh karena itu, selalu mungkin untuk menemukan indeks yang $i \le 0$ $i \ge n$ $l \le u$

\begin{aligned} Pr (X_{l} > F_{1 / 2} or X_{u} < F_{1 / 2}) & = Pr (X_{l} > F_{1 / 2}) + Pr (X_{u} < F_{1 / 2}) \\ \leq 2^{- n} (\sum_{j = 0}^{l - 1} (\binom{n}{j}) + \sum_{j = u + 1}^{n} (\binom{n}{j})) . \end{aligned}

$\eqalign{ \Pr(X_l \gt F_{1/2} \text{ or } X_u \lt F_{1/2}) &= \Pr(X_l \gt F_{1/2}) + \Pr( X_u \lt F_{1/2}) \\ &\le 2^{-n}\left(\sum_{j=0}^{l-1} \binom{n}{j} + \sum_{j=u+1}^n \binom{n}{j}\right). }$

Larutan

Ini adalah komplemen dari kondisi yang menentukan untuk interval kepercayaan, dan karenanya setara dengan itu:

Pr (X_{l} \leq F_{1 / 2} \leq X_{u}) \geq 2^{- n} \sum_{j = l}^{u} (\binom{n}{j}) .

$\Pr(X_l \le F_{1/2}\le X_u ) \ge 2^{-n}\sum_{j=l}^u \binom{n}{j}.$

Dengan memilih untuk membuat sisi kanan setidaknya , kita akan menemukan prosedur interval kepercayaan yang levelnya setidaknya . $l \le u$ $1-\alpha$ $1-\alpha$

Dengan kata lain, saat memilih indeks dan , dengan menetapkan dan , interval akan menjadi CI untuk median memiliki jangkauan setidaknya . Anda dapat menghitung cakupan aktualnya dalam hal probabilitas Binomial. Cakupan ini akan diperoleh untuk setiap distribusi yang menetapkan probabilitas nol untuk (yang mencakup semua distribusi kontinu). Itu akan dilampaui oleh apa pun yang memberikan probabilitas bukan nol pada . $l$ $u$ $L(X) = X_l$ $U(X) = X_u$ $[L(X), U(X)]$ $F_{1/2}$ $1-\alpha$ $F$ $F_{1/2}$ $F$ $F_{1/2}$

Diskusi

Pada titik ini kami memiliki beberapa pilihan. Yang paling umum adalah membuat batas simetris dengan mengatur cukup dekat dengan . Bahkan, dengan menetapkan , batas kepercayaan dapat ditemukan untuk setiap dengan pencarian cepat atau dengan menerapkan fungsi kuantil Binomial. $u$ $n+1-l$ $u=n+1-l$ $n$

Sebagai contoh, misalkan dan (untuk menggambarkan prosedur CI). Mari kita hitung bagian bawah dari distribusi Binomial kumulatif dengan parameter dan : $n=10$ $\alpha=10\%$ $1-\alpha=90\%$ $10$ $1/2$

> i <- 0:5; names(i) <- i; print(pbinom(i, 10, 1/2), digits=1)
    0     1     2     3     4     5   
0.001 0.011 0.055 0.172 0.377 0.623

(Ini adalah Rperintah dan responsnya.) Karena nilai pada , sama dengan , dekat dengan , ia tergoda untuk mengambil dan , untuk maka cakupannya adalah yang dekat dengan target . Jika Anda harus mencapai cakupan yang diinginkan, maka Anda perlu mengambil dan atau dan , keduanya dengan cakupan . $2$ $5.5\%$ $\alpha/2$ $l=3$ $u=10+1-3=8$ $1 - 0.055 - 0.055 = 0.89$ $90\%$ $l=2$ $u=8$ $l=3$ $u=9$ $1 - 0.011 - .055 = 0.935$

Sebagai tanda centang, mari kita simulasikan banyak dataset dari distribusi apa pun, hitung CI ini untuk dataset, dan hitung proporsi CI yang menutupi median sebenarnya. RContoh ini menggunakan distribusi Normal:

n <- 10
n.sim <- 1e4
x <- apply(matrix(rnorm(n*n.sim), nrow=n), 2, sort)
covers <- function(x, l, u) mean(x[l, ] <= 0 & x[u, ] >= 0)
c(l3.u8=covers(x,3,8), l2.u8=covers(x,2,8), l3.u9=covers(x,3,9))

Outputnya adalah

 l3.u8  l2.u8  l3.u9 
 0.8904 0.9357 0.9319

Cakupan setuju dengan nilai-nilai teoritis.

Sebagai contoh lain, mari kita ambil sampel dari distribusi diskrit, seperti Poisson:

lambda <- 2
x <- apply(matrix(rpois(n*n.sim, 2), nrow=n), 2, sort)
med <- round(lambda + 1/3 - 0.02/lambda)
c(l3.u8=covers(x,3,8), l2.u8=covers(x,2,8), l3.u9=covers(x,3,9))

 l3.u8  l2.u8  l3.u9 
0.9830 0.9845 0.9964

Kali ini cakupannya jauh lebih tinggi dari yang diperkirakan. Alasannya adalah bahwa ada peluang bahwa nilai acak sama dengan median. Ini sangat meningkatkan kemungkinan bahwa CI menutupi median. Ini bukan masalah atau paradoks. Menurut definisi, cakupan harus setidaknya apa pun distribusi - tetapi dimungkinkan (seperti dalam kasus ini) bahwa cakupan untuk distribusi tertentu jauh lebih besar dari . $27\%$ $1-\alpha$ $F$ $1-\alpha$

Di situlah letak pengorbanannya: ketika Anda tidak berasumsi tentang , CI berdasarkan statistik pesanan adalah satu-satunya yang dapat Anda buat. Cakupannya untuk Anda yang sebenarnya (tetapi tidak diketahui) mungkin sedikit lebih tinggi dari yang Anda harapkan. Itu berarti CI Anda akan lebih luas daripada jika Anda telah membuat beberapa asumsi kuat tentang dengan membatasi kemungkinan . $F$ $F$ $\Omega$ $F$

— whuber
sumber

Jawaban ini berfokus pada pertanyaan # 3. Mengenai dua pertanyaan pertama, (1) ("apakah rumus-rumus ini benar?"), Jawabannya tidak cukup, karena mereka menggunakan perkiraan Normal untuk distribusi Binomial; dan (2) ("apakah ada referensi"), jawabannya mungkin, tetapi siapa yang peduli? Referensi untuk analisis dalam jawaban ini adalah Hahn & Meeker, Interval Statistik .

— whuber

Jika Anda ingin menggunakan metode numerik, Anda dapat menghasilkan estimasi distribusi median samping dengan menggunakan bootstrap. Ulangi sampel Anda berulang kali dan hitung banyak median. Stdev median ini berfungsi sebagai perkiraan stdev distribusi sampling median. Saya menggunakan metode serupa untuk menghitung ketidakpastian hasil permainan catur di makalah saya tentang catur catur yang dapat ditemukan di sini https://sonoma.academia.edu/JamalMunshi/papers

— Jamal Munshi
sumber

Ini ide yang bagus. Mengingat komentar untuk pertanyaan, apa yang dibutuhkan adalah analisis keakuratannya untuk kecil . Juga, tidak ada gunanya melakukan resampling berulang kali dalam praktik karena distribusi yang tepat mudah diperoleh dalam bentuk tertutup. Untuk dataset , kemungkinan median sampel bootstrap tidak melebihi (di mana ) adalah kemungkinan bahwa setidaknya setengah dari nilai sampel ada di set . Ini diberikan oleh distribusi Binomial dengan parameter dan .

n

$n$

x_{1} \leq x_{2} \leq \dots \leq x_{n}

$x_1\le x_2\le\cdots\le x_n$

x

$x$

x_{i} \leq x < x_{i + 1}

$x_i \le x \lt x_{i+1}$

{x_{1}, x_{2} \dots, x_{i}}

$\{x_1,x_2\ldots,x_i\}$

n

$n$

i / n

$i/n$

— whuber

@whuber, maaf, maksudmu "ini BUKAN ide yang bagus", kan?

— Py-ser

@ Py-ser Gagasan yang mendasarinya baik dalam arti bahwa versi itu akan bekerja, tetapi interpretasi dan implementasi keduanya perlu ditingkatkan.

— whuber

Tapi, seluruh diskusi kita di masa lalu adalah bahwa Anda pikir bootstrap BUKAN ide yang bagus.

— Py-ser