Mengapa residu Pearson dari regresi binomial negatif lebih kecil daripada residu dari regresi poisson?


9

Saya punya data ini:

set.seed(1)
predictor  <- rnorm(20)
set.seed(1)
counts <- c(sample(1:1000, 20))
df <- data.frame(counts, predictor)

Saya menjalankan regresi poisson

poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson")

Dan regresi binomial negatif:

require(MASS)
nb_counts <- glm.nb(counts ~ predictor, data = df)

Lalu saya menghitung statistik dispersi untuk regresi poisson:

sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts)

# [1] 145.4905

Dan regresi binomial negatif:

sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts)

# [1] 0.7650289

Adakah yang bisa menjelaskan, TANPA MENGGUNAKAN PERSAMAAN, mengapa statistik dispersi untuk regresi binomial negatif jauh lebih kecil daripada statistik dispersi untuk regresi poisson?

Jawaban:


9

Ini agak mudah, tetapi "tanpa menggunakan persamaan" adalah cacat substansial. Saya bisa menjelaskannya dengan kata-kata, tetapi kata-kata itu akan mencerminkan persamaan. Saya harap itu bisa diterima / masih bernilai bagi Anda. (Persamaan yang relevan tidak sulit.)

Ada beberapa jenis residu. Residu mentah hanyalah perbedaan antara nilai respons yang diamati (dalam kasus Anda counts) dan nilai respons prediksi model. Residu Pearson membaginya dengan deviasi standar (akar kuadrat dari fungsi varians untuk versi tertentu dari model linier umum yang Anda gunakan).

Deviasi standar yang terkait dengan distribusi Poisson lebih kecil daripada binomial negatif . Jadi, ketika Anda membaginya dengan penyebut yang lebih besar, hasil bagi lebih kecil.

Selain itu, binomial negatif lebih sesuai untuk kasus Anda, karena Anda countsakan didistribusikan sebagai seragam dalam populasi. Artinya, varians mereka tidak akan sama dengan mean mereka.


4
Meskipun OP meminta penjelasan non-matematis, tetap menyenangkan untuk melihat pembenaran matematis (atau yang sama keras dan jelasnya) untuk jawaban ini. Setelah membaca pertanyaan, intuisi saya adalah bahwa "Karena Poisson adalah (membatasi) kasus khusus NB dan NB memiliki lebih banyak parameter, ada lebih banyak fleksibilitas dalam pemasangan, jadi tentu saja setiap ukuran residu yang wajar tidak boleh meningkat ketika mengganti a Poisson GLM oleh NB GLM. " Saya bertanya-tanya apakah intuisi itu benar.
whuber

Jika , E [ X ] = V [ X ] = λ . Jika X NegBin ( r , p ) , E [ X ] = p r / ( 1 - p ) dan V [ X ] = p r / ( 1 - p ) 2XPoisson(λ)E[X]=V[X]=λXNegBin(r,p)E[X]=pr/(1p)V[X]=pr/(1p)2. Jadi varians Poisson sama dengan rata-rata, varians NegBin lebih besar dari rata-rata ( ). Inilah sebabnya mengapa "standar deviasi yang terkait dengan distribusi Poisson lebih kecil daripada binomial negatif." p<1(1p)2<(1p)
Sergio

3
@Sergio Inti dari masalah ini, meskipun, adalah bahwa dalam model Poisson kami bekerja dengan estimasi λ daripada λ itu sendiri dan dalam model NB kita sama-sama bekerja dengan dua perkiraan r dan p . Karenanya perbandingan Anda tidak berlaku secara langsung. Tanpa benar-benar menuliskan formula untuk MLE di kedua model, sama sekali tidak jelas hubungan apa yang harus ada di antara set perkiraan tersebut. Selanjutnya, residu Pearson adalah rasio dan argumen tentang varians hanya membahas penyebut, yang hanya setengah dari cerita. λ^λr^p^
whuber

Perkiraan MLE konsisten. Masalahnya adalah ketika, seperti kata gung, "jumlah akan didistribusikan sebagai seragam dalam populasi. Artinya, varians mereka tidak akan sama dengan rata-rata mereka", Anda tidak akan pernah bisa mendapatkan varians Poisson yang diperkirakan lebih besar dari yang diperkirakan Poisson berarti, bahkan jika perkiraan Anda tidak bias dan konsisten. Ini masalah salah spesifikasi.
Sergio

5

Untuk model Poisson, jika expection untuk th pengamatan Y i adalah μ i varians adalah μ i , & sisa Pearson karena ituiYiμiμi

yiμ^iμ^i

di mana μ adalah estimasi mean. Parameterisasi dari model binomial negatif yang digunakan dalam MASS dijelaskan di sini . Jika expection untuk i th pengamatan Y i adalah μ i varians adalah μ i + μ 2μ^iYiμi , & oleh karena itu residu Pearsonμi+μ2θ

yiμ~iμ~i+μ~2θ

μ~θμ^μ~iPola prediktor, mereka akan lebih dekat, & secara umum menambahkan parameter harus memberikan kecocokan yang lebih baik di semua pengamatan, meskipun saya tidak tahu bagaimana menunjukkan ini dengan ketat. Semua sama, jumlah populasi yang Anda perkirakan lebih besar jika model Poisson berlaku, jadi itu seharusnya tidak mengejutkan.]


1
μi

@whuber Dalam hal ini, ternyata nilai yang dipasang untuk kedua model hampir identik. Bagaimanapun, model "benar" benar-benar hanya memiliki intersep dan pada dasarnya memodelkan mean karena tidak ada hubungan antara x dan Y dalam simulasi.
jsk

1
μi

1
μi

1
(yi|λ,vi,r)Poisson(λvi)(vi|λ,r)Gamma(r,r)(yi|λ,r)NB(r,λr+λ)viyi>λvi>1
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.