Gagasan kuncinya adalah bahwa distribusi sampling median mudah diungkapkan dalam hal fungsi distribusi tetapi lebih rumit untuk diekspresikan dalam hal nilai median. Setelah kami memahami bagaimana fungsi distribusi dapat menyatakan kembali nilai sebagai probabilitas dan kembali lagi, mudah untuk mendapatkan distribusi sampling yang tepat dari median. Diperlukan sedikit analisis perilaku fungsi distribusi di dekat mediannya untuk menunjukkan bahwa ini normal asimptotik.
(Analisis yang sama bekerja untuk distribusi sampling dari setiap kuantil, bukan hanya median.)
Saya tidak akan berusaha keras dalam eksposisi ini, tetapi saya melakukannya dalam langkah-langkah yang mudah dibenarkan dengan cara yang ketat jika Anda memiliki pikiran untuk melakukan itu.
Intuisi
Ini adalah snapshot dari kotak yang berisi 70 atom gas atom panas:
Dalam setiap gambar saya telah menemukan lokasi, ditampilkan sebagai garis vertikal merah, yang membelah atom menjadi dua kelompok yang sama antara kiri (digambarkan sebagai titik hitam) dan kanan (titik putih). Ini median posisi: 35 atom terletak di sebelah kiri dan 35 di sebelah kanan. Median berubah karena atom bergerak secara acak di sekitar kotak.
xxx1−xx35(1−x)357035
Pr(x is a median)=Cxn/2(1−x)n/2
di mana adalah jumlah total atom dan sebanding dengan jumlah pemisahan atom menjadi dua subkelompok yang sama.C nnCn
Formula ini mengidentifikasi distribusi median sebagai Beta distribusi(n/2+1,n/2+1) .
Sekarang perhatikan sebuah kotak dengan bentuk yang lebih rumit:
Sekali lagi median bervariasi. Karena kotaknya rendah di dekat pusat, tidak ada banyak volumenya di sana: perubahan kecil dalam volume yang ditempati oleh setengah atom kiri (yang hitam sekali lagi) - atau, kita bisa mengakui, yang daerah ke kiri seperti yang ditunjukkan dalam angka-angka ini - sesuai dengan perubahan yang relatif besar dalam posisi horizontal dari median. Kenyataannya, karena area yang disubversi oleh bagian horizontal kecil dari kotak sebanding dengan tinggi di sana, perubahan median dibagi dengan tinggi kotak. Ini menyebabkan median lebih bervariasi untuk kotak ini daripada kotak persegi, karena yang ini jauh lebih rendah di tengah.
Singkatnya, ketika kita mengukur posisi median dalam hal luas (ke kiri dan kanan), analisis asli (untuk kotak persegi) berdiri tidak berubah. Bentuk kotak hanya mempersulit distribusi jika kita bersikeras mengukur median dalam hal posisi horizontal. Ketika kami melakukannya, hubungan antara area dan representasi posisi berbanding terbalik dengan ketinggian kotak.
Masih banyak yang bisa dipelajari dari foto-foto ini. Jelas bahwa ketika beberapa atom berada di dalam (salah satu) kotak, ada kemungkinan lebih besar bahwa setengah dari mereka secara tidak sengaja dapat berkelompok jauh ke kedua sisi. Ketika jumlah atom bertambah, potensi ketidakseimbangan ekstrem berkurang. Untuk melacak ini, saya mengambil "film" - serangkaian panjang 5000 frame - untuk kotak melengkung diisi dengan , lalu dengan , lalu , dan akhirnya dengan atom, dan mencatat median. Berikut adalah histogram dari posisi median:15 75 37531575375
Jelas, untuk jumlah atom yang cukup besar, distribusi posisi median mereka mulai terlihat berbentuk lonceng dan tumbuh lebih sempit: yang terlihat seperti hasil Teorema Limit Sentral, bukan?
Hasil Kuantitatif
"Kotak," tentu saja, menggambarkan kepadatan probabilitas dari beberapa distribusi: puncaknya adalah grafik fungsi kepadatan (PDF). Dengan demikian area mewakili probabilitas. Menempatkan poin secara acak dan independen dalam sebuah kotak dan mengamati posisi horizontal mereka adalah salah satu cara untuk mengambil sampel dari distribusi. (Ini adalah ide di balik sampel penolakan. )n
Sosok berikutnya menghubungkan ide-ide ini.
Ini terlihat rumit, tetapi sebenarnya sangat sederhana. Ada empat plot terkait di sini:
Plot teratas menunjukkan PDF dari suatu distribusi bersama dengan satu sampel acak berukuran . Nilai lebih besar dari median ditampilkan sebagai titik putih; nilai kurang dari median sebagai titik hitam. Tidak perlu skala vertikal karena kita tahu total area adalah satu.n
Plot tengah adalah fungsi distribusi kumulatif untuk distribusi yang sama: ia menggunakan ketinggian untuk menunjukkan probabilitas. Ini berbagi sumbu horizontal dengan plot pertama. Sumbu vertikalnya harus dari ke karena mewakili probabilitas.101
Plot kiri dimaksudkan untuk dibaca miring: ini adalah PDF dari distribusi Beta . Ini menunjukkan bagaimana median dalam kotak akan bervariasi, ketika median diukur dalam hal area di sebelah kiri dan kanan tengah (daripada diukur dengan posisi horizontal). Saya telah menggambar titik acak dari PDF ini, seperti yang ditunjukkan, dan menghubungkannya dengan garis putus-putus horisontal ke lokasi yang sesuai pada CDF asli: ini adalah bagaimana volume (diukur di sebelah kiri) dikonversi ke posisi (diukur di atas, tengah , dan grafik bawah). Salah satu poin ini sebenarnya sesuai dengan median yang ditunjukkan dalam plot teratas; Saya telah menggambar garis vertikal yang solid untuk menunjukkan itu.16(n/2+1,n/2+1)16
Plot bawah adalah kerapatan sampel median, yang diukur dengan posisi horizontal. Ini diperoleh dengan mengkonversi area (di plot kiri) ke posisi. Rumus konversi diberikan oleh invers CDF asli: ini hanyalah definisi dari invers CDF! (Dengan kata lain, CDF mengubah posisi menjadi area ke kiri; CDF terbalik mengkonversi kembali dari area ke posisi.) Saya telah merencanakan garis putus-putus vertikal yang menunjukkan bagaimana titik acak dari plot kiri dikonversi menjadi titik acak dalam plot bawah . Proses membaca melintasi dan kemudian turun ini memberi tahu kita cara berpindah dari satu area ke area lain.
Misalkan adalah CDF dari distribusi asli (plot tengah) dan CDF dari distribusi Beta. Untuk menemukan kemungkinan bahwa median terletak di sebelah kiri beberapa posisi , pertama-tama gunakan untuk mendapatkan area di sebelah kiri dalam kotak: ini adalah itu sendiri. Distribusi Beta di sebelah kiri memberi tahu kita kemungkinan bahwa setengah atom akan terletak di dalam volume ini, menghasilkan : ini adalah CDF dari posisi tengah . Untuk menemukan PDF-nya (seperti yang ditunjukkan di plot bawah), ambil turunannya:FGxFxF(x)G(F(x))
ddxG(F(x))=G′(F(x))F′(x)=g(F(x))f(x)
di mana adalah PDF (plot teratas) dan adalah Beta Beta (plot kiri).fg
Ini adalah formula tepat untuk distribusi median untuk setiap distribusi kontinu. (Dengan sedikit perhatian dalam interpretasi dapat diterapkan untuk distribusi apa pun, baik kontinu atau tidak.)
Hasil Asimptotik
Ketika sangat besar dan tidak memiliki lompatan di median nya, median sampel harus bervariasi erat di sekitar benar median distribusi. Juga dengan asumsi PDF adalah kontinu dekat , dalam rumus sebelumnya tidak akan banyak berubah dari nilainya di diberikan oleh Selain itu, tidak akan banyak berubah dari nilainya di sana: ke urutan pertama,nFμfμ f(x)μ,f(μ).F
F(x)=F(μ+(x−μ))≈F(μ)+F′(μ)(x−μ)=1/2+f(μ)(x−μ).
Dengan demikian, dengan pendekatan yang terus meningkat seiring tumbuh besar,n
g(F(x))f(x)≈g(1/2+f(μ)(x−μ))f(μ).
Itu hanyalah pergeseran lokasi dan skala distribusi Beta. Pembalikan dengan akan membagi variansnya dengan (yang lebih baik bukan nol!). Kebetulan, varian Beta sangat dekat dengan .f(μ)f(μ)2(n/2+1,n/2+1)n/4
Analisis ini dapat dilihat sebagai aplikasi Metode Delta .
Akhirnya, Beta kira-kira Normal untuk besar . Ada banyak cara untuk melihatnya; mungkin yang paling sederhana adalah dengan melihat logaritma PDFnya di dekat :(n/2+1,n/2+1)n1/2
log(C(1/2+x)n/2(1/2−x)n/2)=n2log(1−4x2)+C′=C′−2nx2+O(x4).
(Konstanta dan hanya menormalkan area total menjadi satu.) Melalui urutan ketiga dalam maka, ini sama dengan log dari Normal PDF dengan varian (Argumen ini dibuat ketat dengan menggunakan fungsi penghasil karakteristik atau kumulan alih-alih log dari PDF.)CC′x,1/(4n).
Secara keseluruhan, kami menyimpulkan itu
Distribusi median sampel memiliki varian sekitar ,1/(4nf(μ)2)
dan kira-kira Normal untuk besar ,n
semua asalkan PDF adalah kontinu dan bukan nol di medianfμ.