Jawaban:
Pertama-tama saran saya adalah Anda harus menahan diri untuk tidak mencoba distribusi Poisson seperti halnya untuk data. Saya sarankan Anda harus terlebih dahulu membuat teori mengapa distribusi Poisson harus sesuai dengan dataset atau fenomena tertentu.
Setelah Anda menetapkan ini, pertanyaan berikutnya adalah apakah distribusinya homogen atau tidak. Ini berarti apakah semua bagian data ditangani oleh distribusi poisson yang sama atau apakah ada variasi dalam hal ini berdasarkan pada beberapa aspek seperti waktu atau ruang. Setelah Anda yakin akan aspek-aspek ini, cobalah tiga tes berikut:
cari ini dan Anda akan menemukannya dengan mudah di internet.
Berikut adalah urutan perintah R yang mungkin bermanfaat. Jangan ragu untuk berkomentar atau mengedit jika Anda menemukan kesalahan.
set.seed(1)
x.poi<-rpois(n=200,lambda=2.5) # a vector of random variables from the Poisson distr.
hist(x.poi,main="Poisson distribution")
lambda.est <- mean(x.poi) ## estimate of parameter lambda
(tab.os<-table(x.poi)) ## table with empirical frequencies
freq.os<-vector()
for(i in 1: length(tab.os)) freq.os[i]<-tab.os[[i]] ## vector of emprical frequencies
freq.ex<-(dpois(0:max(x.poi),lambda=lambda.est)*200) ## vector of fitted (expected) frequencies
acc <- mean(abs(freq.os-trunc(freq.ex))) ## absolute goodness of fit index acc
acc/mean(freq.os)*100 ## relative (percent) goodness of fit index
h <- hist(x.poi ,breaks=length(tab.os))
xhist <- c(min(h$breaks),h$breaks)
yhist <- c(0,h$density,0)
xfit <- min(x.poi):max(x.poi)
yfit <- dpois(xfit,lambda=lambda.est)
plot(xhist,yhist,type="s",ylim=c(0,max(yhist,yfit)), main="Poison density and histogram")
lines(xfit,yfit, col="red")
#Perform the chi-square goodness of fit test
#In case of count data we can use goodfit() included in vcd package
library(vcd) ## loading vcd package
gf <- goodfit(x.poi,type= "poisson",method= "MinChisq")
summary(gf)
plot(gf,main="Count data vs Poisson distribution")
Saya kira cara termudah adalah dengan melakukan uji Good- of-fit chi-square .
Sebenarnya inilah applet java yang bagus yang akan melakukan hal itu!
Anda dapat menggunakan dispersi (rasio varians terhadap rata-rata) sebagai statistik uji, karena Poisson harus memberikan dispersi dari 1. Berikut adalah tautan ke cara menggunakannya sebagai uji model.
Untuk distribusi Poisson, mean sama dengan varians. Jika mean sampel Anda sangat berbeda dari varians sampel Anda, Anda mungkin tidak memiliki data Poisson. Tes dispersi juga disebutkan di sini adalah formalisasi dari gagasan itu.
Jika varians Anda jauh lebih besar dari rata-rata Anda, seperti yang biasa terjadi, Anda mungkin ingin mencoba distribusi binomial negatif berikutnya.
Anda dapat menggambar angka tunggal di mana frekuensi yang diamati dan diharapkan digambar berdampingan. Jika distribusinya sangat berbeda dan Anda juga memiliki rasio varians-rata-rata lebih besar dari satu, maka kandidat yang baik adalah binomial negatif. Baca bagian Distribusi Frekuensi dari The R Book
. Ini berhubungan dengan masalah yang sangat mirip.
Saya pikir poin utama adalah satu sidmaestro memunculkan ... apakah pengaturan eksperimental atau mekanisme pembuatan data mendukung premis bahwa data mungkin timbul dari distribusi Poisson.
Saya bukan penggemar berat pengujian untuk asumsi distribusi, karena tes tersebut biasanya tidak terlalu berguna. Apa yang tampaknya lebih bermanfaat bagi saya adalah membuat asumsi distribusi atau model yang fleksibel dan cukup kuat untuk penyimpangan dari model, biasanya untuk tujuan inferensi. Dalam pengalaman saya, tidak umum untuk melihat mean = varians, sehingga seringkali model binomial negatif tampaknya lebih tepat, dan memasukkan Poisson sebagai kasus khusus.
Poin lain yang penting dalam pengujian pengujian distribusi, jika itu yang ingin Anda lakukan, adalah untuk memastikan bahwa tidak ada strata yang terlibat yang akan membuat distribusi Anda menjadi campuran dari distribusi lain. Distribusi strata-spesifik individu mungkin muncul Poisson, tetapi campuran yang diamati mungkin tidak. Situasi analog dari regresi hanya mengasumsikan bahwa distribusi kondisional Y | X terdistribusi normal, dan tidak benar-benar distribusi Y itu sendiri.
Namun cara lain untuk menguji ini adalah dengan plot kuantil kuantil. Di R, ada qqplot. Ini secara langsung memplot nilai Anda terhadap distribusi normal dengan mean dan sd yang sama