Teorema batas pusat untuk median sampel

55

Jika saya menghitung median dari jumlah pengamatan yang cukup besar yang diambil dari distribusi yang sama, apakah teorema limit pusat menyatakan bahwa distribusi median akan mendekati distribusi normal? Pemahaman saya adalah bahwa ini benar dengan menggunakan sejumlah besar sampel, tetapi apakah itu juga berlaku untuk median?

Jika tidak, apa distribusi median sampel yang mendasarinya?

— pengguna1728853
sumber

9

Anda memerlukan beberapa kondisi keteraturan sehingga median akan memiliki distribusi normal di bawah penyelamatan dalam batas. Untuk melihat apa yang salah, pertimbangkan distribusi apa pun pada sejumlah titik yang terbatas, misalnya, seragam pada .

X

$X$

{- 1, 0, 1}

$\{-1,0,1\}$

— kardinal

5

Mengenai kondisi keteraturan: Jika distribusi yang mendasarinya memiliki kerapatan yang dapat dibedakan pada median (benar), maka median sampel akan memiliki distribusi normal asimptotik dengan varian yang bergantung pada turunan tersebut. Ini berlaku lebih umum untuk kuantil arbitrer.

— kardinal

6

@ cardinal Saya percaya Anda perlu kondisi tambahan: ketika kepadatan terdiferensiasi kedua, sama dengan nol di median, dan memiliki nol turunan pertama di sana, maka distribusi asimtotik dari median sampel akan menjadi bimodal.

— Whuber

4

@whuber: Ya, karena kerapatan (bukan turunannya seperti yang saya katakan sebelumnya secara tidak sengaja) masuk ke dalam varian sebagai kebalikan, nilai kerapatan pada titik itu tidak boleh nol. Permintaan maaf karena menjatuhkan kondisi itu!

— kardinal

4

Contoh tandingan dasar dapat dibuat menggunakan distribusi apa pun yang menetapkan probabilitas untuk suatu interval dan probabilitas hingga mana seperti a Bernoulli ( ). Median sampel akan kurang dari atau sama dengan sesering mereka lebih besar dari atau sama dengan . Peluang median tidak dalam mendekati untuk sampel besar, secara efektif meninggalkan "celah" di

1 / 2

$1/2$

(- \infty, μ]

$(-\infty,\mu]$

1 / 2

$1/2$

[μ + δ, \infty)

$[\mu+\delta,\infty)$

δ > 0,

$\delta\gt 0,$

(1 / 2)

$(1/2)$

μ = 0, δ = 1

$\mu=0,\delta=1$

μ

$\mu$

μ + δ

$\mu+\delta$

(μ, μ + δ)

$(\mu,\mu+\delta)$

0

$0$

(μ, μ + δ)

$(\mu,\mu+\delta)$ dalam distribusi terbatas - yang jelas kemudian akan menjadi tidak normal, tidak peduli bagaimana itu distandarisasi.

— whuber

39

Jika Anda bekerja dalam hal variabel indikator (yaitu jika dan sebaliknya), Anda dapat langsung menerapkan teorema batas Tengah ke rata-rata , dan dengan menggunakan metode Delta , ubah itu menjadi distribusi normal asimtotik untuk , yang pada gilirannya berarti bahwa Anda mendapatkan normalitas asimtotik untuk quantiles tetap . $Z_i = 1$ $X_i \leq x$ $0$ $Z$ $F_X^{-1}(\bar{Z})$ $X$

Jadi bukan hanya median, tetapi kuartil, persentil ke-90, ... dll.

Longgar, jika kita berbicara tentang th kuantil sampel dalam sampel cukup besar, kita mendapatkan bahwa sekitar akan memiliki distribusi normal dengan mean th kuantil populasi dan varians . $q$ $q$ $x_q$ $q(1-q)/(nf_X(x_q)^2)$

Maka untuk median ( ), varians dalam sampel yang cukup besar akan sekitar . $q = 1/2$ $1/(4nf_X(\tilde{\mu})^2)$

Anda memerlukan semua kondisi di sepanjang jalan untuk menahan, tentu saja, sehingga tidak bekerja dalam semua situasi, tetapi untuk distribusi terus menerus di mana kepadatan pada jumlah populasi positif dan dapat dibedakan, dll, ...

Lebih lanjut, ini tidak berlaku untuk kuantil ekstrem, karena CLT tidak bekerja di sana (rata-rata Z tidak akan normal asimptotik). Anda memerlukan teori berbeda untuk nilai ekstrem.

Sunting: kritik whuber benar; ini akan berhasil jika adalah median populasi daripada median sampel. Argumen perlu dimodifikasi untuk benar-benar berfungsi dengan baik. $x$

— Glen_b
sumber

5

Saya pikir satu bagian logis dari penjelasan ini mungkin hilang: bagaimana tepatnya seseorang menggunakan indikator untuk mendapatkan median sampel ? Saya bisa melihat bagaimana ketika adalah median yang mendasarinya , indikator akan berfungsi: tetapi indikator ini tidak sesuai dengan median sampel atau fungsi apa pun dari itu.

x

$x$

X_{i} \leq x

$X_i\le x$

— whuber

Bagaimana Anda beralih dari distribusi normal asimptotik untuk untuk mendapatkan normalitas asimptotik untuk kuantil tetap X? Sunting: Saya mengerti, menjadi nilai persen 0-100% sehingga nilai-nilai kuantil normal asimptotik

F_{X}^{- 1} (\bar{Z})

$F^{−1}_X (\overline{Z})$

\bar{Z}

$\overline{Z}$

— adam

49

Gagasan kuncinya adalah bahwa distribusi sampling median mudah diungkapkan dalam hal fungsi distribusi tetapi lebih rumit untuk diekspresikan dalam hal nilai median. Setelah kami memahami bagaimana fungsi distribusi dapat menyatakan kembali nilai sebagai probabilitas dan kembali lagi, mudah untuk mendapatkan distribusi sampling yang tepat dari median. Diperlukan sedikit analisis perilaku fungsi distribusi di dekat mediannya untuk menunjukkan bahwa ini normal asimptotik.

(Analisis yang sama bekerja untuk distribusi sampling dari setiap kuantil, bukan hanya median.)

Saya tidak akan berusaha keras dalam eksposisi ini, tetapi saya melakukannya dalam langkah-langkah yang mudah dibenarkan dengan cara yang ketat jika Anda memiliki pikiran untuk melakukan itu.

Intuisi

Ini adalah snapshot dari kotak yang berisi 70 atom gas atom panas:

Gambar 1

Dalam setiap gambar saya telah menemukan lokasi, ditampilkan sebagai garis vertikal merah, yang membelah atom menjadi dua kelompok yang sama antara kiri (digambarkan sebagai titik hitam) dan kanan (titik putih). Ini median posisi: 35 atom terletak di sebelah kiri dan 35 di sebelah kanan. Median berubah karena atom bergerak secara acak di sekitar kotak.

$x$ $x$ $x$ $1-x$ $x^{35}(1-x)^{35}$ $70$ $35$

Pr (x is a median) = C x^{n / 2} (1 - x)^{n / 2}

${\Pr}(x\text{ is a median}) = C x^{n/2} (1-x)^{n/2}$

di mana adalah jumlah total atom dan sebanding dengan jumlah pemisahan atom menjadi dua subkelompok yang sama. $n$ $C$ $n$

Formula ini mengidentifikasi distribusi median sebagai Beta distribusi $(n/2+1, n/2+1)$ .

Sekarang perhatikan sebuah kotak dengan bentuk yang lebih rumit:

Gambar 2

Sekali lagi median bervariasi. Karena kotaknya rendah di dekat pusat, tidak ada banyak volumenya di sana: perubahan kecil dalam volume yang ditempati oleh setengah atom kiri (yang hitam sekali lagi) - atau, kita bisa mengakui, yang daerah ke kiri seperti yang ditunjukkan dalam angka-angka ini - sesuai dengan perubahan yang relatif besar dalam posisi horizontal dari median. Kenyataannya, karena area yang disubversi oleh bagian horizontal kecil dari kotak sebanding dengan tinggi di sana, perubahan median dibagi dengan tinggi kotak. Ini menyebabkan median lebih bervariasi untuk kotak ini daripada kotak persegi, karena yang ini jauh lebih rendah di tengah.

Singkatnya, ketika kita mengukur posisi median dalam hal luas (ke kiri dan kanan), analisis asli (untuk kotak persegi) berdiri tidak berubah. Bentuk kotak hanya mempersulit distribusi jika kita bersikeras mengukur median dalam hal posisi horizontal. Ketika kami melakukannya, hubungan antara area dan representasi posisi berbanding terbalik dengan ketinggian kotak.

Masih banyak yang bisa dipelajari dari foto-foto ini. Jelas bahwa ketika beberapa atom berada di dalam (salah satu) kotak, ada kemungkinan lebih besar bahwa setengah dari mereka secara tidak sengaja dapat berkelompok jauh ke kedua sisi. Ketika jumlah atom bertambah, potensi ketidakseimbangan ekstrem berkurang. Untuk melacak ini, saya mengambil "film" - serangkaian panjang 5000 frame - untuk kotak melengkung diisi dengan , lalu dengan , lalu , dan akhirnya dengan atom, dan mencatat median. Berikut adalah histogram dari posisi median: $3$ $15$ $75$ $375$

Gambar 3

Jelas, untuk jumlah atom yang cukup besar, distribusi posisi median mereka mulai terlihat berbentuk lonceng dan tumbuh lebih sempit: yang terlihat seperti hasil Teorema Limit Sentral, bukan?

Hasil Kuantitatif

"Kotak," tentu saja, menggambarkan kepadatan probabilitas dari beberapa distribusi: puncaknya adalah grafik fungsi kepadatan (PDF). Dengan demikian area mewakili probabilitas. Menempatkan poin secara acak dan independen dalam sebuah kotak dan mengamati posisi horizontal mereka adalah salah satu cara untuk mengambil sampel dari distribusi. (Ini adalah ide di balik sampel penolakan. ) $n$

Sosok berikutnya menghubungkan ide-ide ini.

Gambar 4

Ini terlihat rumit, tetapi sebenarnya sangat sederhana. Ada empat plot terkait di sini:

Plot teratas menunjukkan PDF dari suatu distribusi bersama dengan satu sampel acak berukuran . Nilai lebih besar dari median ditampilkan sebagai titik putih; nilai kurang dari median sebagai titik hitam. Tidak perlu skala vertikal karena kita tahu total area adalah satu. $n$
Plot tengah adalah fungsi distribusi kumulatif untuk distribusi yang sama: ia menggunakan ketinggian untuk menunjukkan probabilitas. Ini berbagi sumbu horizontal dengan plot pertama. Sumbu vertikalnya harus dari ke karena mewakili probabilitas. $0$ $1$
Plot kiri dimaksudkan untuk dibaca miring: ini adalah PDF dari distribusi Beta . Ini menunjukkan bagaimana median dalam kotak akan bervariasi, ketika median diukur dalam hal area di sebelah kiri dan kanan tengah (daripada diukur dengan posisi horizontal). Saya telah menggambar titik acak dari PDF ini, seperti yang ditunjukkan, dan menghubungkannya dengan garis putus-putus horisontal ke lokasi yang sesuai pada CDF asli: ini adalah bagaimana volume (diukur di sebelah kiri) dikonversi ke posisi (diukur di atas, tengah , dan grafik bawah). Salah satu poin ini sebenarnya sesuai dengan median yang ditunjukkan dalam plot teratas; Saya telah menggambar garis vertikal yang solid untuk menunjukkan itu. $(n/2+1, n/2+1)$ $16$
Plot bawah adalah kerapatan sampel median, yang diukur dengan posisi horizontal. Ini diperoleh dengan mengkonversi area (di plot kiri) ke posisi. Rumus konversi diberikan oleh invers CDF asli: ini hanyalah definisi dari invers CDF! (Dengan kata lain, CDF mengubah posisi menjadi area ke kiri; CDF terbalik mengkonversi kembali dari area ke posisi.) Saya telah merencanakan garis putus-putus vertikal yang menunjukkan bagaimana titik acak dari plot kiri dikonversi menjadi titik acak dalam plot bawah . Proses membaca melintasi dan kemudian turun ini memberi tahu kita cara berpindah dari satu area ke area lain.

Misalkan adalah CDF dari distribusi asli (plot tengah) dan CDF dari distribusi Beta. Untuk menemukan kemungkinan bahwa median terletak di sebelah kiri beberapa posisi , pertama-tama gunakan untuk mendapatkan area di sebelah kiri dalam kotak: ini adalah itu sendiri. Distribusi Beta di sebelah kiri memberi tahu kita kemungkinan bahwa setengah atom akan terletak di dalam volume ini, menghasilkan : ini adalah CDF dari posisi tengah . Untuk menemukan PDF-nya (seperti yang ditunjukkan di plot bawah), ambil turunannya: $F$ $G$ $x$ $F$ $x$ $F(x)$ $G(F(x))$

\frac{d}{d x} G (F (x)) = G^{'} (F (x)) F^{'} (x) = g (F (x)) f (x)

$\frac{d}{dx}G(F(x)) = G'(F(x))F'(x) = g(F(x))f(x)$

di mana adalah PDF (plot teratas) dan adalah Beta Beta (plot kiri). $f$ $g$

Ini adalah formula tepat untuk distribusi median untuk setiap distribusi kontinu. (Dengan sedikit perhatian dalam interpretasi dapat diterapkan untuk distribusi apa pun, baik kontinu atau tidak.)

Hasil Asimptotik

Ketika sangat besar dan tidak memiliki lompatan di median nya, median sampel harus bervariasi erat di sekitar benar median distribusi. Juga dengan asumsi PDF adalah kontinu dekat , dalam rumus sebelumnya tidak akan banyak berubah dari nilainya di diberikan oleh Selain itu, tidak akan banyak berubah dari nilainya di sana: ke urutan pertama, $n$ $F$ $\mu$ $f$ $\mu$ $f(x)$ $\mu,$ $f(\mu).$ $F$

F (x) = F (μ + (x - μ)) \approx F (μ) + F^{'} (μ) (x - μ) = 1 / 2 + f (μ) (x - μ) .

$F(x) = F\left(\mu + (x-\mu)\right) \approx F(\mu) + F^\prime(\mu)(x-\mu) = 1/2 + f(\mu)(x-\mu).$

Dengan demikian, dengan pendekatan yang terus meningkat seiring tumbuh besar, $n$

g (F (x)) f (x) \approx g (1 / 2 + f (μ) (x - μ)) f (μ) .

$g(F(x))f(x) \approx g\left(1/2 + f(\mu)(x-\mu)\right) f(\mu).$

Itu hanyalah pergeseran lokasi dan skala distribusi Beta. Pembalikan dengan akan membagi variansnya dengan (yang lebih baik bukan nol!). Kebetulan, varian Beta sangat dekat dengan . $f(\mu)$ $f(\mu)^2$ $(n/2+1, n/2+1)$ $n/4$

Analisis ini dapat dilihat sebagai aplikasi Metode Delta .

Akhirnya, Beta kira-kira Normal untuk besar . Ada banyak cara untuk melihatnya; mungkin yang paling sederhana adalah dengan melihat logaritma PDFnya di dekat : $(n/2+1, n/2+1)$ $n$ $1/2$

\log (C (1 / 2 + x)^{n / 2} (1 / 2 - x)^{n / 2}) = \frac{n}{2} \log (1 - 4 x^{2}) + C^{'} = C^{'} - 2 n x^{2} + O (x^{4}) .

$\log\left(C(1/2 + x)^{n/2}(1/2-x)^{n/2}\right) = \frac{n}{2}\log\left(1-4x^2\right) + C' = C'-2nx^2 +O(x^4).$

(Konstanta dan hanya menormalkan area total menjadi satu.) Melalui urutan ketiga dalam maka, ini sama dengan log dari Normal PDF dengan varian (Argumen ini dibuat ketat dengan menggunakan fungsi penghasil karakteristik atau kumulan alih-alih log dari PDF.) $C$ $C'$ $x,$ $1/(4n).$

Secara keseluruhan, kami menyimpulkan itu

Distribusi median sampel memiliki varian sekitar , $1/(4 n f(\mu)^2)$
dan kira-kira Normal untuk besar , $n$
semua asalkan PDF adalah kontinu dan bukan nol di median $f$ $\mu.$

— whuber
sumber

Saya suka angka 4 itu. Apakah Anda membuatnya menggunakan R?

— EngrStudent

@ Enngr Saya mungkin bisa membuat yang seperti itu R, mungkin menggunakan layout, tetapi sebenarnya itu dilakukan dengan Mathematica 9.

— whuber

1

Ini sesuatu yang indah.

— EngrStudent

@whuber bukan Beta (n / 2 + 1, n / 2 + 1) di bawah Beta (1,1) sebelumnya? Lihat misalnya ine.pt/revstat/pdf/rs080204.pdf

— Tim

1

@Tim Saya tidak mengerti relevansi referensi dengan prior, tetapi saya sangat menghargai Anda menunjukkan bahwa nama yang benar dari distribusi Beta yang diidentifikasi dalam bagian "Intuition" adalah Beta . Saya akan memperbaikinya di mana pun itu terjadi (yang ada di beberapa tempat dalam diskusi).

(n / 2 + 1, n / 2 + 1)

$(n/2+1,n/2+1)$

— whuber

18

@EngrStudent menerangi jawaban memberitahu kita bahwa kita harus mengharapkan hasil yang berbeda ketika distribusi kontinu , dan ketika itu diskrit (grafik "merah", di mana distribusi asimptotik dari median sampel gagal secara spektakuler untuk terlihat seperti normal, sesuai dengan distribusi Binomial (3), Geometris (11), Hypergeometrik (12), Binomial Negatif (14), Poisson (18), Uniform Discrete (22).

Dan memang inilah masalahnya. Ketika distribusinya terpisah, banyak hal menjadi rumit. Saya akan memberikan bukti untuk Absolutely Continuous Case, pada dasarnya melakukan tidak lebih dari merinci jawaban yang sudah diberikan oleh @Glen_b, dan kemudian saya akan membahas sedikit apa yang terjadi ketika distribusinya terpisah, menyediakan juga referensi terbaru bagi siapa pun yang tertarik dengan penyelaman di.

DISTRIBUSI TERUS MENERUS
Mempertimbangkan koleksi variabel acak yang benar-benar kontinu dengan fungsi distribusi (cdf) dan fungsi kepadatan . Tentukan mana adalah fungsi indikator. Karenanya adalah Bernoulli rv, dengan $\{X_1,...X_n\}$ $F_X(x) = P(X_i\le x)$ $F'_X(x)=f_X(x)$ $Z_i\equiv I\{X_i\le x\}$ $I\{\}$ $Z_i$

E (Z_{i}) = E (I {X_{i} \leq x}) = P (X_{i} \leq x) = F_{X} (x), Var (Z_{i}) = F_{X} (x) [1 - F_{X} (x)], \forall i

$E(Z_i) = E\left(I\{X_i\le x\}\right) = P(X_i\le x)=F_X(x),\;\; \text{Var}(Z_i) = F_X(x)[1-F_X(x)],\;\; \forall i$

Biarkan menjadi mean sampel dari iid Bernoullis ini, yang didefinisikan untuk tetap sebagai yang berarti Teorema Limit Pusat berlaku dan kami memiliki $Y_n(x)$ $x$

Y_{n} (x) = \frac{1}{n} \sum_{i = 1}^{n} Z_{i}

$Y_n(x) = \frac 1n\sum_{i=1}^nZ_i$

E [Y_{n} (x)] = F_{X} (x), Var (Y_{n} (x)) = (1 / n) F_{X} (x) [1 - F_{X} (x)]

$E[Y_n(x)] = F_X(x),\;\; \text{Var}(Y_n(x)) = (1/n)F_X(x)[1-F_X(x)]$

\sqrt{n} (Y_{n} (x) - F_{X} (x)) \to_{d} N (0, F_{X} (x) [1 - F_{X} (x)])

$\sqrt n\Big(Y_n(x) - F_X(x)\Big) \rightarrow_d \mathbb N\left(0,F_X(x)[1-F_X(x)]\right)$

Perhatikan bahwa yaitu tidak lain dari fungsi distribusi empiris. Dengan menerapkan "Metode Delta" kami memiliki itu untuk fungsi kontinu dan terdiferensiasi dengan turunan tidak nol pada titik yang diinginkan, kami memperoleh $Y_n(x) = \hat F_n(x)$ $g(t)$ $g'(t)$

\sqrt{n} (g [{\hat{F}}_{n} (x)] - g [F_{X} (x)]) \to_{d} N (0, F_{X} (x) [1 - F_{X} (x)] \cdot {(g^{'} [F_{X} (x)])}^{2})

$\sqrt n\Big(g[\hat F_n(x)] - g[F_X(x)]\Big) \rightarrow_d \mathbb N\left(0,F_X(x)[1-F_X(x)]\cdot\left(g'[F_X(x)]\right)^2\right)$

Sekarang, pilih di mana menunjukkan fungsi invers. Ini adalah fungsi kontinu dan dapat dibedakan (karena adalah), dan oleh Teorema Fungsi Balik kita memiliki $g(t) \equiv F^{-1}_X(t),\;\; t\in (0,1)$ $^{-1}$ $F_X(x)$

g^{'} (t) = \frac{d}{d t} F_{X}^{- 1} (t) = \frac{1}{f_{x} (F_{X}^{- 1} (t))}

$g'(t)=\frac {d}{dt}F^{-1}_X(t) = \frac 1{f_x\left(F^{-1}_X(t)\right)}$

Memasukkan hasil ini pada dalam delta-metode yang diperoleh hasil asimptotik yang kita miliki $g$

\sqrt{n} (F_{X}^{- 1} ({\hat{F}}_{n} (x)) - F_{X}^{- 1} (F_{X} (x))) \to_{d} N (0, \frac{F_{X} (x) [1 - F_{X} (x)]}{{[f_{x} (F_{X}^{- 1} (F_{X} (x)))]}^{2}})

$\sqrt n\Big(F^{-1}_X(\hat F_n(x)) - F^{-1}_X(F_X(x))\Big) \rightarrow_d \mathbb N\left(0,\frac {F_X(x)[1-F_X(x)]}{\left[f_x\left(F^{-1}_X(F_X(x))\right)\right]^2} \right)$

dan menyederhanakan,

\sqrt{n} (F_{X}^{- 1} ({\hat{F}}_{n} (x)) - x) \to_{d} N (0, \frac{F_{X} (x) [1 - F_{X} (x)]}{{[f_{x} (x)]}^{2}})

$\sqrt n\Big(F^{-1}_X(\hat F_n(x)) - x\Big) \rightarrow_d \mathbb N\left(0,\frac {F_X(x)[1-F_X(x)]}{\left[f_x(x)\right]^2} \right)$

.. untuk tetap . Sekarang atur , median (benar) populasi. Kemudian kita memiliki dan hasil umum di atas menjadi, untuk kasus yang menarik, $x$ $x=m$ $F_X(m) = 1/2$

\sqrt{n} (F_{X}^{- 1} ({\hat{F}}_{n} (m)) - m) \to_{d} N (0, \frac{1}{{[2 f_{x} (m)]}^{2}})

$\sqrt n\Big(F^{-1}_X(\hat F_n(m)) - m\Big) \rightarrow_d \mathbb N\left(0,\frac {1}{\left[2f_x(m)\right]^2} \right)$

Tetapi menyatu dengan median sampel . Hal ini karena $F^{-1}_X(\hat F_n(m))$ $\hat m$

F_{X}^{- 1} ({\hat{F}}_{n} (m)) = inf {x : F_{X} (x) \geq {\hat{F}}_{n} (m)} = inf {x : F_{X} (x) \geq \frac{1}{n} \sum_{i = 1}^{n} I {X_{i} \leq m}}

$F^{-1}_X(\hat F_n(m)) = \inf\{x : F_X(x) \geq \hat F_n(m)\} = \inf\{x : F_X(x) \geq \frac 1n \sum_{i=1}^n I\{X_i\leq m\}\}$

Sisi kanan ketidaksetaraan menyatu dengan dan terkecil yang akhirnya , adalah median sampel. $1/2$ $x$ $F_X \geq 1/2$

Jadi kita dapatkan

\sqrt{n} (\hat{m} - m) \to_{d} N (0, \frac{1}{{[2 f_{x} (m)]}^{2}})

$\sqrt n\Big(\hat m - m\Big) \rightarrow_d \mathbb N\left(0,\frac {1}{\left[2f_x(m)\right]^2} \right)$ yang merupakan Central Teorema Limit untuk median sampel untuk distribusi yang benar-benar kontinu.

DISTRIBUSI DISKRET
Ketika distribusinya diskrit (atau ketika sampel mengandung ikatan), telah diperdebatkan bahwa definisi "klasik" dari sampel kuantil, dan karenanya dari median juga, mungkin menyesatkan pada awalnya , karena konsep teoretis menjadi digunakan untuk mengukur apa yang seseorang coba ukur dengan kuantil.
Bagaimanapun juga telah disimulasikan bahwa di bawah definisi klasik ini (yang kita semua tahu), distribusi asimptotik dari median sampel adalah non-normal dan distribusi diskrit.

Definisi alternatif kuantil sampel adalah dengan menggunakan konsep fungsi "mid-distribution", yang didefinisikan sebagai

F_{m i d} (x) = P (X \leq x) - \frac{1}{2} P (X = x)

$F_{mid}(x) = P(X\le x) - \frac 12P(X=x)$

Definisi sampel kuantil melalui konsep fungsi mid-distribusi dapat dilihat sebagai generalisasi yang dapat mencakup sebagai kasus khusus distribusi kontinu, tetapi juga, yang tidak terlalu kontinu juga.

Untuk kasus distribusi diskrit, antara hasil lainnya, telah ditemukan bahwa median sampel sebagaimana didefinisikan melalui konsep ini memiliki distribusi normal asimptotik dengan ... varians tampak rumit.

Sebagian besar dari ini adalah hasil terbaru. Rujukannya adalah Ma, Y., Genton, MG, & Parzen, E. (2011). Sifat asimptotik dari sampel kuantil dari distribusi diskrit. Sejarah Institut Matematika Statistik, 63 (2), 227-243. , di mana orang dapat menemukan diskusi dan tautan ke literatur yang relevan yang lebih tua.

— Alecos Papadopoulos
sumber

2

(+1) Untuk artikel. Ini jawaban yang sangat bagus.

— Alex Williams

Bisakah Anda jelaskan mengapa menyatu dengan median sampel ?

F_{X}^{- 1} ({\hat{F}}_{n} (m))

$F^{-1}_X(\hat F_n(m))$

\hat{m}

$\hat m$

— kasa

Saya tahu bahwa dalam distribusi, tetapi saya tidak dapat melihat bagaimana median sampel sama dengan

{\hat{F}}_{n} (m) \to F_{X} (m)

$\hat F_n(m) \to F_X(m)$

\hat{m}

$\hat m$

F_{X}^{- 1} ({\hat{F}}_{n} (m))

$F^{-1}_X(\hat F_n(m))$

— kasa

1

@ Kuasa saya menguraikan sedikit tentang masalah ini.

— Alecos Papadopoulos

Saya minta maaf untuk terus membahas ini lagi: Tapi terkecil yang akhirnya , apakah median populasi, bukan median sampel, bukan?

x

$x$

F_{X} (x) \geq 1 / 2

$F_X(x) ≥ 1/2$

— kasa

10

Ya itu, dan bukan hanya untuk median, tetapi untuk kuantil sampel apa pun. Menyalin dari makalah ini , yang ditulis oleh TS Ferguson, seorang profesor di UCLA (halamannya ada di sini ), yang secara menarik membahas distribusi bersama mean sampel dan kuantil sampel, kami memiliki:

Biarkan menjadi iid dengan fungsi distribusi , densitas , mean dan varian terbatas . Misalkan dan biarkan menunjukkan -th quantile dari , sehingga . Asumsikan bahwa kerapatan kontinu dan positif pada . Biarkan menunjukkan sampel -th quantile. Kemudian $X_1, . . . ,X_n$ $F(x)$ $f(x)$ $\mu$ $\sigma^2$ $0 < p < 1$ $x_p$ $p$ $F$ $F(x_p) = p$ $f(x)$ $x_p$ $Y_n = X_{(n:\lceil np\rceil)}$ $p$

\sqrt{n} (Y_{n} - x_{p}) \overset{d}{\to} N (0, p (1 - p) / (f (x_{p}))^{2})

$\sqrt n(Y_n − x_p) \xrightarrow{d} N(0, p(1 − p)/(f(x_p))^2)$

Untuk (median), dan Anda memiliki CLT untuk median, $p=1/2 \Rightarrow x_p=m$

\sqrt{n} (Y_{n} - m) \overset{d}{\to} N (0, [2 f (m)]^{- 2})

$\sqrt n(Y_n − m) \xrightarrow{d} N\left(0, [2f(m)]^{-2}\right)$

— Alecos Papadopoulos
sumber

1

Bagus. Perlu disebutkan bahwa varians dari median sampel tidak semudah perkiraan seperti yang untuk mean sampel.

— Michael M

@Alecos - bagaimana Anda mendapatkan dua jawaban untuk pertanyaan ini?

— EngrStudent

1

@ EngrStudent Sistem memungkinkannya, ia hanya meminta Anda untuk memverifikasi bahwa Anda memang ingin menambahkan jawaban kedua.

— Alecos Papadopoulos

8

Saya suka jawaban analitik yang diberikan oleh Glen_b. Itu jawaban yang bagus.

Perlu gambar. Saya suka gambar.

Berikut ini beberapa area elastisitas dalam menjawab pertanyaan:

Ada banyak distribusi di dunia. Jarak tempuh cenderung bervariasi.
Cukup punya arti berbeda. Untuk contoh tandingan terhadap suatu teori, kadang-kadang satu contoh tandingan diperlukan agar "cukup" dipenuhi. Untuk demonstrasi tingkat cacat rendah menggunakan ketidakpastian binomial, ratusan atau ribuan sampel mungkin diperlukan.

Untuk standar normal, saya menggunakan kode MatLab berikut:

mysamples=1000;

loops=10000;

y1=median(normrnd(0,1,mysamples,loops));

cdfplot(y1)

dan saya mendapat plot berikut sebagai output:

masukkan deskripsi gambar di sini

Jadi mengapa tidak melakukan ini untuk 22 "distribusi" bawaan lainnya, kecuali menggunakan prob-plot (di mana garis lurus berarti sangat normal)?

masukkan deskripsi gambar di sini

Dan di sini adalah kode sumber untuk itu:

mysamples=1000;

loops=600;

y=zeros(loops,23);

y(:,1)=median(random('Normal', 0,1,mysamples,loops));

y(:,2)=median(random('beta', 5,0.2,mysamples,loops));
y(:,3)=median(random('bino', 10,0.5,mysamples,loops));
y(:,4)=median(random('chi2', 10,mysamples,loops));
y(:,5)=median(random('exp', 700,mysamples,loops));

y(:,6)=median(random('ev', 700,mysamples,loops));
y(:,7)=median(random('f', 5,3,mysamples,loops));
y(:,8)=median(random('gam', 10,5,mysamples,loops));
y(:,9)=median(random('gev', 0.24, 1.17, 5.8,mysamples,loops));
y(:,10)=median(random('gp', 0.12, 0.81,mysamples,loops));

y(:,11)=median(random('geo', 0.03,mysamples,loops));
y(:,12)=median(random('hyge', 1000,50,20,mysamples,loops));
y(:,13)=median(random('logn', log(20000),1.0,mysamples,loops));
y(:,14)=median(random('nbin', 2,0.11,mysamples,loops));
y(:,15)=median(random('ncf', 5,20,10,mysamples,loops));

y(:,16)=median(random('nct', 10,1,mysamples,loops));
y(:,17)=median(random('ncx2', 4,2,mysamples,loops));
y(:,18)=median(random('poiss', 5,mysamples,loops));
y(:,19)=median(random('rayl', 0.5,mysamples,loops));
y(:,20)=median(random('t', 5,mysamples,loops));

y(:,21)=median(random('unif',0,1,mysamples,loops));
y(:,22)=median(random('unid', 5,mysamples,loops));
y(:,23)=median(random('wbl', 0.5,2,mysamples,loops));


figure(1); clf
hold on

for i=2:23
    subplot(4,6,i-1)

    probplot(y(:,i))
    title(['Probplot of ' num2str(i)])
    axis tight

    if not(isempty(find(i==[3,11,12,14,18,22])))
        set(gca,'Color','r')
    end

end

Ketika saya melihat bukti analitik saya mungkin berpikir "dalam teori mereka semua mungkin cocok" tetapi ketika saya mencobanya maka saya bisa marah bahwa dengan "ada beberapa cara ini tidak berfungsi dengan baik, sering melibatkan diskrit atau sangat terbatas nilai "dan ini mungkin membuat saya ingin lebih berhati-hati dalam menerapkan teori pada apa pun yang membutuhkan biaya.

Semoga berhasil.

— EngrStudent - Pasang kembali Monica
sumber

Apakah saya salah atau distribusi yang mediannya tidak terdistribusi normal adalah diskrit?

— SeF