Dalam sebuah artikel saya menemukan rumus untuk standar deviasi ukuran sampel
di mana adalah kisaran rata-rata sub sampel (ukuran ) dari sampel utama. Bagaimana angka dihitung? Ini nomor yang benar?
Dalam sebuah artikel saya menemukan rumus untuk standar deviasi ukuran sampel
di mana adalah kisaran rata-rata sub sampel (ukuran ) dari sampel utama. Bagaimana angka dihitung? Ini nomor yang benar?
Jawaban:
Dalam sampel dari n nilai independen dari distribusi F dengan pdf f , pdf dari distribusi gabungan dari ekstrem min ( x ) = x [ 1 ] dan maks ( x ) = x [ n ] sebanding dengan
(Konstanta proporsionalitas adalah kebalikan dari koefisien multinomial . Secara intuitif, PDF gabungan ini mengungkapkan peluang untuk menemukan nilai terkecil dalam rentang[x[1],x[1]+dx[1]), nilai terbesar dalam rentang[x[n],x[n]+dx[n]), dan nilai tengah antaranya dalam kisaran [ x [ 1 ] + d x [ 1 ] , x [ n ] ) . Ketika F adalah kontinu, kita dapat mengganti rentang tengah itu dengan ( x [ 1 ] , x [ n ] ] , dengan demikian mengabaikan hanya sejumlah probabilitas "sangat kecil". Probabilitas terkait, untuk urutan pertama dalam diferensial, adalah f ( x [ 1 ]f ( x [ n ] ) d x [ n ] , dan F ( x [ n ] ) - F ( x [ 1 ] ) , . Masing-masing, sekarang membuat jelas di mana formula yang berasal dari)
Mengambil ekspektasi kisaran memberikan 2.53441 σ untuk distribusi normal dengan standar deviasi σ dan n = 6 . Kisaran yang diharapkan sebagai kelipatan σ tergantung pada ukuran sampel n :
Nilai-nilai ini dihitung dengan mengintegrasikan secara numerik lebih dari{(x,y)∈R2| x≤y}, denganFdiatur ke CDF Normal standar, dan membaginya dengan deviasi standarF(yang hanya1).
Hubungan multiplikasi yang serupa antara rentang yang diharapkan dan standar deviasi akan berlaku untuk setiap keluarga skala lokasi, karena itu adalah properti dari bentuk distribusi saja. Misalnya, berikut adalah plot yang sebanding untuk distribusi seragam:
dan distribusi eksponensial:
Nilai dalam dua plot sebelumnya diperoleh dengan integrasi tepat - bukan numerik, yang dimungkinkan karena bentuk aljabar dan F yang relatif sederhana dalam setiap kasus. Untuk distribusi seragam mereka sama dengan n - 1
Perkiraan itu sangat dekat dengan standar deviasi sampel yang sebenarnya. Saya menulis skrip R cepat untuk menggambarkannya:
x = sample(1:10000,6000,replace=TRUE)
B = 100000
R = rep(NA,B)
for(i in 1:B){
samp = sample(x,6)
R[i] = max(samp)-min(samp)
}
mean(R)/2.534
sd(x)
yang menghasilkan:
> mean(R)/2.534
[1] 2819.238
>
> sd(x)
[1] 2880.924
Sekarang saya tidak yakin (belum) mengapa ini bekerja tetapi setidaknya terlihat (pada nilai nominal) bahwa pendekatannya adalah yang layak.
Sunting: Lihat komentar luar biasa @ Whuber (atas) tentang mengapa ini bekerja
mean(R)/2.474
sama dengan, sangat dekat sd(x)
.