Saya memiliki data dengan puncak ganda yang saya coba modelkan, dan ada cukup banyak tumpang tindih di antara puncak yang tidak bisa saya perlakukan secara mandiri. Histogram data mungkin terlihat seperti ini:
Saya telah membuat dua model untuk ini: satu menggunakan dua distribusi Poisson, dan yang lainnya menggunakan dua distribusi binomial negatif (untuk menjelaskan penyebaran berlebihan). Apa cara yang tepat untuk mengetahui model mana yang cocok dengan data dengan lebih akurat?
Pikiran awal saya adalah bahwa saya dapat menggunakan tes Kolmogorov-Smirnov untuk membandingkan setiap model dengan data, kemudian melakukan tes rasio kemungkinan untuk melihat apakah ada yang secara signifikan lebih cocok. Apakah ini masuk akal? Jika demikian, saya tidak yakin bagaimana melakukan tes rasio kemungkinan. Apakah chi-square sesuai, dan berapa derajat kebebasan yang saya miliki?
Jika itu membantu, beberapa kode R (sangat disederhanakan) untuk model mungkin terlihat seperti ini:
## inital data points
a <- read.table("data")
#create model data
model.pois = c(rpois(1000000,200),rpois(500000,250))
model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5)
#Kolmogorov-Smirnov test
#use ks.boot, since it's count data that may contain duplicate values
kpois = ks.boot(model.pois,a)
knb = ks.boot(model.nb,a)
#here's where I'd do some sort of likelihood ratio test
# . . .
Sunting: Berikut adalah gambar yang dapat menjelaskan data dan distribusi yang saya pas lebih baik. Ini benar-benar jelas dari visualisasi bahwa model kedua (menggunakan distorsi binomial negatif untuk memperhitungkan penyebaran berlebih) lebih cocok. Saya ingin menunjukkan ini secara kuantitatif.
(merah - data, hijau - model)