Ringkasan
Ketika Anda dapat mengasumsikan sedikit atau tidak sama sekali tentang hukum probabilitas sejati, dan dapat menyimpulkan sedikit tentangnya - yang merupakan kasus untuk sampel kecil dari pengamatan - maka sepasang statistik pesanan yang sesuai akan membentuk interval kepercayaan untuk median. Statistik pesanan mana yang dipilih dapat dengan mudah ditemukan dengan analisis cepat dari distribusi Binomial . Ada beberapa pilihan yang harus dilakukan dalam praktik: ini dibahas dan diilustrasikan pada akhir posting ini.n(n,1/2)
Secara kebetulan, analisis yang sama dapat digunakan untuk membangun interval kepercayaan untuk kuantil apa pun (di mana median, sesuai dengan , adalah salah satu contoh). Distribusi Binomial mengatur solusi dalam kasus ini.qq=50%(n,q)
pengantar
Ingat apa arti interval kepercayaan diri (CI). Pengaturan adalah sampel acak independen dengan setiap diatur oleh distribusi yang sama . Diasumsikan hanya bahwa adalah salah satu elemen dari himpunan dari distribusi yang mungkin. Masing-masing dari mereka memiliki median . Untuk setiap tetap antara dan , CI level adalah sepasang fungsi (alias "statistik"), dan , sedemikian rupa sehinggaX=(X1,X2,…,Xn)XiFFΩF1/2α01αLU
PrF(L(X)≤F1/2≤U(X))≥1−α.
Sisi kanan adalah cakupan dari CI untuk distribusi .F
Selain itu: agar ini bermanfaat, kami juga lebih suka bahwa (1) maksimum pertanggungan di atas sekecil mungkin dan (2) panjang interval yang diharapkan, , seharusnya cenderung singkat untuk semua atau "paling" .F∈ΩEF(U(X)−L(X))F∈Ω
Analisis
Misalkan kita tidak berasumsi tentang . Ω Dalam situasi ini kita masih dapat mengeksploitasi statistik pesanan . Ini adalah nilai spesifik dalam sampel yang diurutkan. Untuk menyederhanakan notasi, mari urutkan sampel sekali dan untuk semua sehingga
X1≤X2≤⋯≤Xn.
Nilai adalah statistik urutan dari sampel. Karena kita tidak mengasumsikan apa pun tentang , kita tidak tahu apa-apa tentang pada awalnya, jadi kita tidak dapat menyimpulkan banyak tentang kemungkinan interval antara masing-masing dan tetangganya . Namun, kami masih dapat bernalar secara kuantitatif tentang nilai-nilai individual: berapa peluang tidak melebihi median ? Untuk mengetahuinya, biarkan menjadi variabel acak yang diatur oleh , dan biarkanXiithΩFXiXi+1XiFYF
πF=PrF(Y≤F1/2)
menjadi kesempatan yang tidak melebihi rata-rata . Kemudian ketika kita tahu (karena ) bahwa sampel asli kami dari nilai harus berisi setidaknya nilai tidak melebihi .YFXi≤F1/2X1≤⋯≤Xi≤F1/2niF1/2
Ini adalah masalah Binomial. Secara formal, jika kita mendefinisikan variabel acak menjadi sama dengan ketika dan sebaliknya, hal di atas menunjukkan bahwa memiliki distribusi Bernoulli dengan parameter . "Keberhasilan" terdiri dari mengamati nilai pada atau di bawah median. Oleh karena itu diberikan oleh probabilitas Binomial yang terkait dengan lebih sedikit dari berhasil:Z1Y≤F1/20ZπFPr(Xi>F1/2)i
Pr(Xi>F1/2)=∑j=0i−1(nj)πjF(1−πF)n−j.
Anda mungkin memperhatikan bahwa . Bahkan, untuk banyak distribusi kedua nilai sama: mereka hanya berbeda ketika memberikan probabilitas positif ke median . Untuk menganalisis perbedaannya, tulis untuk . Untuk ini berarti iniπF≥1/2FF1/2πF=1/2+εε≥02(j−1)≤n
πjF(1−πF)n−j=(1/2+ε)j(1/2−ε)n−j=(1/2+ε)j[(1/2−ε)j(1/2−ε)n−2j]=(1/4−ε2)j(1/2−ε)n−2j≤(1/4)j(1/2)n−2j=2−n.
Akibatnya, ketika , kami dapat menghilangkan ketergantungan jumlah pada , dengan biaya mengganti kesetaraan dengan ketidaksetaraan:2(i−1)≤nF
Pr(Xi>F1/2)≤2−n∑j=0i−1(nj).
Argumen yang persis sama (diterapkan dengan membalik statistik urutan) menunjukkan bahwa ketika ,2(i+1)≥n
Pr(Xi<F1/2)≤2−n∑j=i+1n(nj).
Sisi kanan berkurang menjadi nol setiap kali (dalam kasus pertama) atau (dalam yang kedua). Oleh karena itu, selalu mungkin untuk menemukan indeks yangi≤0i≥nl≤u
Pr(Xl>F1/2 or Xu<F1/2)=Pr(Xl>F1/2)+Pr(Xu<F1/2)≤2−n(∑j=0l−1(nj)+∑j=u+1n(nj)).
Larutan
Ini adalah komplemen dari kondisi yang menentukan untuk interval kepercayaan, dan karenanya setara dengan itu:
Pr(Xl≤F1/2≤Xu)≥2−n∑j=lu(nj).
Dengan memilih untuk membuat sisi kanan setidaknya , kita akan menemukan prosedur interval kepercayaan yang levelnya setidaknya .l≤u1−α 1−α
Dengan kata lain, saat memilih indeks dan , dengan menetapkan dan , interval akan menjadi CI untuk median memiliki jangkauan setidaknya . Anda dapat menghitung cakupan aktualnya dalam hal probabilitas Binomial. Cakupan ini akan diperoleh untuk setiap distribusi yang menetapkan probabilitas nol untuk (yang mencakup semua distribusi kontinu). Itu akan dilampaui oleh apa pun yang memberikan probabilitas bukan nol pada .luL(X)=XlU(X)=Xu[L(X),U(X)]F1/21−αFF1/2FF1/2
Diskusi
Pada titik ini kami memiliki beberapa pilihan. Yang paling umum adalah membuat batas simetris dengan mengatur cukup dekat dengan . Bahkan, dengan menetapkan , batas kepercayaan dapat ditemukan untuk setiap dengan pencarian cepat atau dengan menerapkan fungsi kuantil Binomial.un+1−lu=n+1−ln
Sebagai contoh, misalkan dan (untuk menggambarkan prosedur CI). Mari kita hitung bagian bawah dari distribusi Binomial kumulatif dengan parameter dan :n=10α=10%1−α=90%101/2
> i <- 0:5; names(i) <- i; print(pbinom(i, 10, 1/2), digits=1)
0 1 2 3 4 5
0.001 0.011 0.055 0.172 0.377 0.623
(Ini adalah R
perintah dan responsnya.) Karena nilai pada , sama dengan , dekat dengan , ia tergoda untuk mengambil dan , untuk maka cakupannya adalah yang dekat dengan target . Jika Anda harus mencapai cakupan yang diinginkan, maka Anda perlu mengambil dan atau dan , keduanya dengan cakupan .25.5%α/2l=3u=10+1−3=81−0.055−0.055=0.8990%l=2u=8l=3u=91−0.011−.055=0.935
Sebagai tanda centang, mari kita simulasikan banyak dataset dari distribusi apa pun, hitung CI ini untuk dataset, dan hitung proporsi CI yang menutupi median sebenarnya. R
Contoh ini menggunakan distribusi Normal:
n <- 10
n.sim <- 1e4
x <- apply(matrix(rnorm(n*n.sim), nrow=n), 2, sort)
covers <- function(x, l, u) mean(x[l, ] <= 0 & x[u, ] >= 0)
c(l3.u8=covers(x,3,8), l2.u8=covers(x,2,8), l3.u9=covers(x,3,9))
Outputnya adalah
l3.u8 l2.u8 l3.u9
0.8904 0.9357 0.9319
Cakupan setuju dengan nilai-nilai teoritis.
Sebagai contoh lain, mari kita ambil sampel dari distribusi diskrit, seperti Poisson:
lambda <- 2
x <- apply(matrix(rpois(n*n.sim, 2), nrow=n), 2, sort)
med <- round(lambda + 1/3 - 0.02/lambda)
c(l3.u8=covers(x,3,8), l2.u8=covers(x,2,8), l3.u9=covers(x,3,9))
l3.u8 l2.u8 l3.u9
0.9830 0.9845 0.9964
Kali ini cakupannya jauh lebih tinggi dari yang diperkirakan. Alasannya adalah bahwa ada peluang bahwa nilai acak sama dengan median. Ini sangat meningkatkan kemungkinan bahwa CI menutupi median. Ini bukan masalah atau paradoks. Menurut definisi, cakupan harus setidaknya apa pun distribusi - tetapi dimungkinkan (seperti dalam kasus ini) bahwa cakupan untuk distribusi tertentu jauh lebih besar dari .27%1−αF1−α
Di situlah letak pengorbanannya: ketika Anda tidak berasumsi tentang , CI berdasarkan statistik pesanan adalah satu-satunya yang dapat Anda buat. Cakupannya untuk Anda yang sebenarnya (tetapi tidak diketahui) mungkin sedikit lebih tinggi dari yang Anda harapkan. Itu berarti CI Anda akan lebih luas daripada jika Anda telah membuat beberapa asumsi kuat tentang dengan membatasi kemungkinan .FFΩF