Perkiraan normal untuk distribusi Poisson


12

Di sini, di Wikipedia dikatakan:

Untuk nilai λ cukup besar , (katakan λ>1000 ), distribusi normal dengan rata-rata λ dan varians λ (standar deviasi λ ), merupakan pendekatan yang sangat baik untuk distribusi Poisson. Jika λ lebih besar dari sekitar 10, maka distribusi normal adalah perkiraan yang baik jika koreksi kontinuitas yang tepat dilakukan, yaitu, P(Xx), mana (huruf kecil) x adalah bilangan bulat non-negatif, digantikan oleh P(Xx+0.5).

FPoisson(x;λ)Fnormal(x;μ=λ,σ2=λ)

Sayangnya ini tidak dikutip. Saya ingin dapat menunjukkan / membuktikan ini dengan keras. Bagaimana Anda bisa benar-benar mengatakan distribusi normal adalah perkiraan yang baik ketika λ>1000 , bagaimana Anda menghitung perkiraan 'sangat baik' ini, ukuran apa yang digunakan?

Terjauh yang saya miliki dengan ini adalah di sini di mana John berbicara tentang menggunakan teorema Berry – Esseen dan mendekati kesalahan dalam dua CDF. Dari apa yang saya lihat dia tidak mencoba nilai apa pun dari λ1000 .


6
Anda tidak dapat membuktikannya tanpa mendefinisikan 'baik'. (Anda dapat membuktikan hasil asimptotik, tetapi Anda tidak dapat menyatakannya sebagai 'baik' pada ukuran sampel tertentu tanpa menentukan kriteria Anda.) Anda dapat menunjukkan perilakunya dengan contoh langsung (dari mana orang dapat melihat seberapa baik 'baik' adalah dengan lampu mereka sendiri). Untuk kriteria umum yang cenderung digunakan orang-orang, koreksi kontinuitas berfungsi dengan baik untuk selama Anda tidak terlalu jauh ke dalam buntut. λ>10
Glen_b -Reinstate Monica

1
(Untuk lebih spesifik, jika kriteria Anda adalah kesalahan absolut, Anda berpotensi dapat mencapai 'baik' di mana-mana pada ukuran sampel kecil seperti 10, tetapi kebanyakan orang peduli tentang sesuatu yang lebih dekat dengan kesalahan relatif)
Glen_b -Reinstate Monica

Jawaban:


7

Misalkan adalah Poisson dengan parameter , dan normal dengan mean dan varians . Tampak bagi saya bahwa perbandingan yang tepat adalah antara dan . Di sini untuk kesederhanaan saya menulis , yaitu, kami tertarik ketika berkorespondensi dengan standar deviasi dari mean.XλYλPr(X=n)Pr(Y[n12,n+12])n=λ+αλnα

Jadi saya curang. Saya menggunakan Mathematica. Jadi dan tidak ke sebagai . Tetapi perbedaannya adalah asimptotik untuk Jika Anda memplot ini sebagai fungsi dari , Anda akan mendapatkan kurva yang sama seperti yang ditunjukkan pada gambar kedua hingga terakhir di http://www.johndcook.com/blog/normal_approx_to_poisson/ .Pr(X=n)Pr(Y[n12,n+12])

12πλeα2/2
λ
α(α23)eα2/262πλ
α

Berikut adalah perintah yang saya gunakan:

  n = lambda + alpha Sqrt[lambda];
  p1 = Exp[-lambda] lambda^n/n!;
  p2 = Integrate[1/Sqrt[2 Pi]/Sqrt[lambda] Exp[-(x-lambda)^2/2/lambda], {x, n-1/2, n+1/2}];
  Series[p1, {lambda, Infinity, 1}]
  Series[p2, {lambda, Infinity, 1}]

Juga, dengan sedikit eksperimen, bagi saya tampaknya pendekatan asimptotik yang lebih baik untuk adalah . Maka kesalahannya adalah yaitu sekitar kali lebih kecil.Pr(X=n)Pr(Y[nα2/6,n+1α2/6])

(5α49α26)eα2/2722πλ3/2
λ

2

Glen_b benar karena "kecocokan" adalah gagasan yang sangat subyektif. Namun, jika Anda ingin memverifikasi bahwa distribusi poisson Anda cukup normal, Anda dapat menggunakan tes Kolmorgov-Smirnov hipotetis dengan hipotesis nol menjadi CDF berasal dari distribusi , dengan asumsi sampel Anda akan berasal dari poisson ( ). Karena Anda tidak benar-benar menguji sampel, tetapi satu distribusi terhadap yang lain, Anda perlu berpikir hati-hati tentang ukuran sampel dan tingkat signifikansi yang Anda asumsikan untuk uji hipotesis ini (karena kami tidak menggunakan tes KS dengan cara khasnya). Itu adalah:H0:N(λ,λ)λ

  • Pilih representatif, ukuran sampel hipotetis, n, dan sesuaikan tingkat signifikansi tes dengan nilai tipikal, misalnya 5%.

Sekarang, hitung tingkat kesalahan Tipe II untuk tes ini dengan asumsi data Anda benar-benar berasal dari poisson ( ). Tingkat kecocokan Anda dengan distribusi normal adalah tingkat kesalahan Tipe II ini, dalam arti bahwa sampel ukuran n dari distribusi poisson khusus Anda, rata-rata, akan diterima % dari waktu dengan uji normalitas KS pada pilihan Anda. tingkat signifikansi.λβ

Ngomong-ngomong, itu hanya salah satu cara untuk mendapatkan rasa "kebaikan pas". Namun, semua bergantung pada beberapa gagasan subjektif tentang "kebaikan" yang harus Anda definisikan sendiri.


2

Derivasi dari distribusi binomial mungkin memberi Anda wawasan.

Kami memiliki variabel acak binomial;

p(x)=(nx)px(1p)nx

Ini dapat secara alternatif dihitung secara rekursif;

p(x)=(nx+1)px(1p)p(x1)

Jika Anda menjaga kondisi awal;

p(0)=(1p)n

Sekarang mari kita asumsikan bahwa besar dan kecil tetapi keberhasilan rata-rata adalah konstan . Maka kita dapat melakukan hal berikut;npp(x)(np=λ)

P(X=i)=(ni)px(1p)nx

Kami menggunakan .p=λ/n

P(X=i)=n!(ni)!i!(λn)i(1λn)ni

Kami beralih beberapa variabel di sekitar dan mengevaluasi;

P(X=i)=n(n1)(n2)(ni+1)niλii!(1λn)n(1λn)i

Dari kalkulus kita tahu bahwa . Kita juga tahu bahwa karena bagian atas dan bawah adalah polinomial derajat .limn(1+x/n)n=ex[n(n1)(n2)(ni+1)]/ni1i

Ini mengarah pada kesimpulan bahwa sebagai :n

P(X=i)eλλii!

Anda kemudian dapat memverifikasi bahwa dan melalui definisi. Kita tahu bahwa distribusi binomial mendekati normal dalam kondisi Teorema De Moivre-Laplace selama Anda mengoreksi kontinuitas, itulah sebabnya digantikan oleh .E(X)=λVar(X)=λP(Xx)P(Xx+0.5)

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.