Regresi poisson vs regresi kuadrat-terkecil kuadrat?


21

Regresi Poisson adalah GLM dengan fungsi log-link.

Cara alternatif untuk memodelkan data jumlah yang tidak terdistribusi secara normal adalah dengan preprocess dengan mengambil log (atau lebih tepatnya, log (1 + count) untuk menangani 0's). Jika Anda melakukan regresi kuadrat-terkecil pada respons penghitungan log, apakah itu terkait dengan regresi Poisson? Bisakah itu menangani fenomena serupa?


6
Bagaimana Anda berencana mengambil logaritma dari jumlah yang nol?
whuber

3
Jelas tidak setara. Cara mudah untuk melihat ini adalah dengan melihat apa yang akan terjadi jika Anda mengamati jumlah nol. (Komentar dibuat sebelum melihat komentar @ whuber. Rupanya halaman ini tidak menyegarkan dengan tepat di browser saya.)
cardinal

OK, saya jelas harus mengatakan, log (1 + hitung). Jelas tidak setara, tetapi bertanya-tanya apakah ada hubungan, atau apakah mereka bisa menangani fenomena serupa.
Brendan OConnor

1
Ada diskusi bermanfaat tentang masalah ini di sini: blog.stata.com/2011/08/22/…
Michael Bishop

Jawaban:


22

Di satu sisi, dalam regresi Poisson, sisi kiri persamaan model adalah logaritma penghitungan yang diharapkan: .log(E[Y|x])

Di sisi lain, dalam model linier "standar", sisi kiri adalah nilai yang diharapkan dari variabel respons normal: . Secara khusus, fungsi tautan adalah fungsi identitas.E[Y|x]

Sekarang, katakanlah adalah variabel Poisson dan Anda bermaksud menormalkannya dengan mengambil log: Y = log ( Y ) . Karena Y seharusnya normal, Anda berencana untuk menyesuaikan model linier standar dengan sisi kiri E [ Y | x ] = E [ log ( Y ) | x ] . Namun, secara umum, E [ log ( Y ) | x ] log ( EYY=log(Y)YE[Y|x]=E[log(Y)|x] . Akibatnya, kedua pendekatan pemodelan ini berbeda.E[log(Y)|x]log(E[Y|x])


6
Sebenarnya, pernah kecuali P ( Y = f ( X ) | X ) = 1 untuk beberapa σ ( X ) -fungsi yang dapat diukur f , yaitu, Y sepenuhnya ditentukan oleh X . E(log(Y)|X)log(E(Y|X)) P(Y=f(X)|X)=1σ(X)fYX
kardinal

@kardinal. Sangat bagus.
suncoolsu

9

Saya melihat dua perbedaan penting.

Pertama, nilai prediksi (pada skala asli) berperilaku berbeda; dalam loglinear-kuadrat mereka mewakili cara geometris bersyarat; dalam model log-poisson mewakili cara bersyarat. Karena data dalam jenis analisis ini sering condong ke kanan, mean geometrik kondisional akan meremehkan mean kondisional.

Perbedaan kedua adalah distribusi tersirat: lognormal versus poisson. Ini berkaitan dengan struktur heteroskedastisitas residual: varians residual sebanding dengan nilai kuadrat yang diharapkan (lognormal) versus varians residual sebanding dengan nilai yang diharapkan (Poisson).


-1

Satu perbedaan yang jelas adalah bahwa regresi Poisson akan menghasilkan bilangan bulat sebagai prediksi titik sedangkan regresi linier log-hitung dapat menghasilkan non-bilangan bulat.


12
Bagaimana cara kerjanya? Bukankah GLM memperkirakan ekspektasi , yang tidak harus integral?
whuber

1
Ini tidak benar. Secara mekanis, regresi poisson mampu menangani non-integer dengan sempurna. Kesalahan standar tidak akan didistribusikan, tetapi Anda bisa menggunakan kesalahan standar yang kuat saja.
Matius
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.