Kesalahan dalam perkiraan normal untuk distribusi jumlah yang seragam

Salah satu metode naif untuk mendekati distribusi normal adalah dengan menambahkan bersama-sama mungkin variabel acak IID yang terdistribusi secara seragam pada , kemudian masuk kembali dan skala, bergantung pada Teorema Batas Pusat. ( Catatan : Ada metode yang lebih akurat seperti transformasi Box-Muller .) Jumlah variabel acak IID dikenal sebagai distribusi jumlah seragam atau distribusi Irwin-Hall . $100$ $[0,1]$ $U(0,1)$

Berapa besar kesalahan dalam memperkirakan distribusi jumlah seragam dengan distribusi normal?

Kapan pun jenis pertanyaan ini muncul untuk mendekati jumlah variabel acak IID, orang-orang (termasuk saya) memunculkan Teorema Berry – Esseen , yang merupakan versi efektif dari Teorema Batas Pusat mengingat bahwa momen ketiga ada:

| F_{n} (x) - Φ (x) | \leq \frac{C ρ}{σ^{3} \sqrt{n}}

$|F_n(x) - \Phi(x)| \le \frac{C \rho}{\sigma^3 \sqrt n}$

di mana adalah fungsi distribusi kumulatif untuk jumlah yang dihitung kembali dari variabel acak IID, adalah momen sentral ketiga mutlak, adalah standar deviasi, dan adalah konstanta absolut yang dapat dianggap atau bahkan . $F_n$ $n$ $\rho$ $E|(X-EX)^3|$ $\sigma$ $C$ $1$ $1/2$

Ini tidak memuaskan. Tampak bagi saya bahwa perkiraan Berry-Esseen paling dekat dengan tajam pada distribusi binomial yang terpisah, dengan kesalahan terbesar pada $0$ untuk distribusi binomial simetris. Kesalahan terbesar terjadi pada lompatan terbesar. Namun, distribusi jumlah seragam tidak memiliki lompatan.

Tes numerik menunjukkan bahwa kesalahan menyusut lebih cepat daripada $c/\sqrt n$ .

Menggunakan $C=1/2$ , estimasi Berry – Esseen adalah

| F_{n} (x) - Φ (x) | \leq \frac{\frac{1}{2} \frac{1}{32}}{\frac{1}{{\sqrt{12}}^{3}} \sqrt{n}} \approx \frac{0.650}{\sqrt{n}}

$|F_n(x) - \Phi(x)| \le \frac{\frac12 \frac{1}{32}}{\frac{1}{\sqrt{12}^3} \sqrt n} \approx \frac{0.650}{\sqrt n}$

yang untuk $n=10,20,40$ sekitar $0.205$ , $0.145$ , dan $0.103$ , masing-masing. Perbedaan maksimum sebenarnya untuk $n=10, 20, 40$ tampaknya masing-masing sekitar $0.00281$ , $0.00139$ , dan $0.000692$ , yang jauh lebih kecil dan tampaknya jatuh sebagai $c/n$ bukannya $c/\sqrt n$ .

— Douglas Zare
sumber

Jika Anda memperluas distribusi jumlah dalam ekspansi Edgeworth , Anda menemukan bahwa seragam dalam sebagai (karena distribusi seragam simetris), jadi terdengar benar. Karena istilah , itu tidak memberi Anda batasan ...

F_{n} (x) = Φ (x) + n^{- 1} g (x) + o (n^{- 1})

$F_n(x)=\Phi(x)+n^{-1}g(x)+o(n^{-1})$

x

$x$

n \to \infty

$n\rightarrow\infty$

c / n

$c/n$

o (n^{- 1})

$o(n^{-1})$

— MånsT

Terima kasih, sepertinya ini menjelaskan pola untuk banyak distribusi lainnya juga.

c / n

$c/n$

— Douglas Zare

Misalkan menjadi iid variabel acak dan pertimbangkan jumlah dinormalisasi dan norm mana adalah distribusi . $U_1, U_2,\dots$ $\mathcal U(-b,b)$

S_{n} = \frac{\sqrt{3} \sum_{saya = 1}^{n} U_{saya}}{b \sqrt{n}},

$S_n = \frac{\sqrt{3} \sum_{i=1}^n U_i}{b \sqrt{n}} \>,$

sup

$\sup$

δ_{n} = sup_{x \in R} | F_{n} (x) - Φ (x) |,

$\delta_n = \sup_{x\in\mathbb R} |F_n(x) - \Phi(x)| \>,$

F_{n}

$F_n$

S_{n}

$S_n$

Lemma 1 ( Uspensky ): berikut pada memegang . $\delta_n$

δ_{n} < \frac{1}{7.5 π n} + \frac{1}{π} {(\frac{2}{π})}^{n} + \frac{12}{π^{3} n} \exp (- π^{2} n / 24) .

$\delta_n < \frac{1}{7.5 \pi n} + \frac{1}{\pi}\left(\frac{2}{\pi}\right)^n + \frac{12}{\pi^3 n} \exp(-\pi^2 n / 24) \>.$

Bukti . Lihat JV Uspensky (1937), Pengantar probabilitas matematika , New York: McGraw-Hill, hal. 305.

Ini kemudian diperbaiki oleh R. Sherman sebagai berikut.

Lemma 2 ( Sherman ): Peningkatan berikut ini berlaku untuk Uspensky.

δ_{n} < \frac{1}{7.5 π n} - (\frac{π}{180} + \frac{1}{7.5 π n}) e^{- π^{2} n / 24} + \frac{1}{(n + 1) π} {(\frac{2}{π})}^{n} + \frac{12}{π^{3} n} e^{- π^{2} n / 24} .

$\delta_n < \frac{1}{7.5 \pi n} - \left(\frac{\pi}{180}+\frac{1}{7.5\pi n}\right) e^{-\pi^2 n / 24} + \frac{1}{(n+1)\pi}\left(\frac{2}{\pi}\right)^n + \frac{12}{\pi^3 n} e^{-\pi^2 n / 24} \>.$

Bukti : Lihat R. Sherman, Kesalahan perkiraan normal dengan jumlah variabel acak N , Biometrika , vol. 58, tidak. 2, 396–398.

Buktinya adalah aplikasi yang cukup mudah dari ketidaksetaraan segitiga dan batas klasik pada ekor distribusi normal dan pada diterapkan pada fungsi karakteristik masing-masing dari dua distribusi. $(\sin x) / x$

— kardinal
sumber

N = n

$N=n$

@Prastrastator: Tangkapan yang bagus.

— kardinal

2

$2$