Menafsirkan koefisien untuk regresi Poisson


8

Saya tidak mengerti bagaimana menafsirkan koefisien dari regresi Poisson relatif terhadap koefisien dari regresi OLS.

Misalkan saya memiliki data deret waktu, variabel sisi kiri saya adalah jumlah permainan yang dimenangkan per tahun, dan variabel sisi kanan utama saya adalah nilai NASDAQ. Jika spesifikasi pilihan saya adalah untuk menafsirkan model seperti dalam persentase, saya mengambil transformasi log dari game yang dimenangkan. Saya juga dapat mengambil log dari NASDAQ untuk mengatakan berapa banyak peningkatan 1 persen di NASDAQ akan meningkatkan persentase game yang dimenangkan. Sekarang, saya mengakui bahwa model Poisson mungkin masuk akal karena data untuk game yang dimenangkan adalah jumlah dan bukan kontinu. Saya menjalankan regresi dengan mengatakan banyak, banyak variabel kontrol.

Apakah saya tidak akan melakukan transformasi log pada game yang dimenangkan dan alih-alih hanya menggunakan game? Ketika saya mendapatkan koefisien, apakah saya melakukan semacam perhitungan efek marginal (seperti yang dapat dilakukan untuk probit)?
Bagaimana cara menafsirkan koefisien ini?
Bagaimana cara membandingkan interpretasi Poisson dengan OLS - baik OLS yang diubah log atau OLS yang tidak?

Saya tahu pertanyaan semacam ini telah diajukan sebelumnya, tetapi saya masih belum mengerti.


Jawaban:


10

Bukan untuk menjadi kritis, tapi ini adalah contoh yang aneh. Tidak jelas apakah Anda benar-benar melakukan analisis deret waktu, atau apa yang NASDAQ akan lakukan dengan jumlah pertandingan yang dimenangkan oleh beberapa tim. Jika Anda tertarik untuk mengatakan sesuatu tentang jumlah game yang dimenangkan tim, saya pikir akan lebih baik menggunakan regresi logistik biner, mengingat Anda mungkin tahu berapa banyak game yang dimainkan. Regresi Poisson paling tepat untuk berbicara tentang jumlah ketika total yang mungkin tidak dibatasi dengan baik , atau setidaknya tidak diketahui.

Bagaimana Anda akan menafsirkan beta Anda sebagian tergantung pada tautan yang digunakan - dimungkinkan untuk menggunakan tautan identitas, meskipun tautan log lebih umum (dan biasanya lebih sesuai). Jika Anda menggunakan tautan log, Anda mungkin tidak akan mengambil log dari variabel respons Anda - tautan pada dasarnya melakukan itu untuk Anda. Mari kita ambil contoh abstrak, Anda memiliki model Poisson menggunakan tautan log sebagai berikut:

y^=exp(β^0)exp(β^1)x
kalau tidak,
y^=exp(β^0+β^1x)

(EDIT: Saya menghapus "topi" dari betas di bagian selanjutnya, karena mereka jelek, tetapi mereka masih harus dipahami.)

Dengan regresi OLS normal, Anda memprediksi rata-rata distribusi Gaussian dari variabel respons yang bergantung pada nilai-nilai kovariat. Dalam hal ini, Anda memprediksi rata-rata distribusi Poisson dari variabel respons yang bergantung pada nilai-nilai kovariat. Untuk OLS, jika kasing yang diberikan 1 unit lebih tinggi pada kovariat Anda, Anda berharap, semua hal menjadi sama, rata-rata dari distribusi bersyarat menjadiβ1unit lebih tinggi. Di sini, jika case yang diberikan 1 unit lebih tinggi, ceteris paribus , Anda mengharapkan rata-rata kondisionaleβ1 kali lebih tinggi. Misalnya, katakanlahβ1=2, maka dalam regresi normal adalah 2 unit lebih tinggi (yaitu, +2), dan ini adalah 7,4 kali lebih tinggi (yaitu, x 7,4). Dalam kedua kasus tersebut,β0adalah mencegat Anda ; dalam persamaan kami di atas, pertimbangkan situasi kapanx=0, lalu exp(β1)x=1, dan sisi kanan mengurangi exp (β0), yang memberi Anda makna y ketika semua kovariat sama dengan 0.

Ada beberapa hal yang dapat membingungkan tentang ini. Pertama, memprediksi rata-rata distribusi Poisson tidak sama dengan memprediksi rata-rata Gaussian. Dengan distribusi normal, nilai tengah adalah nilai tunggal yang paling mungkin. Tetapi dengan Poisson, rerata seringkali merupakan nilai yang tidak mungkin (misalnya, jika rerata prediksi Anda adalah 2,7, itu bukan hitungan yang bisa ada). Selain itu, biasanya rata-rata tidak terkait dengan tingkat dispersi (yaitu, SD), tetapi dengan distribusi Poisson, varians selalu sama dengan rata-rata (meskipun, sering tidak dalam prakteknya, mengarah ke kompleksitas tambahan). Akhirnya, eksponensial itu membuatnya lebih rumit; jika, alih-alih perubahan relatif, Anda ingin mengetahui nilai yang tepat, Anda harus mulai dari 0 (yaitu,eβ0) dan gandakan jalanmu xwaktu. Untuk memprediksi nilai tertentu, lebih mudah untuk menyelesaikan ekspresi di dalam tanda kurung di persamaan bawah dan kemudian eksponensial; ini membuat arti dari beta kurang jelas, tetapi matematika lebih mudah dan mengurangi kemungkinan kesalahan.


Terima kasih untuk bantuannya! Ya, saya setuju contohnya mengerikan. Terima kasih atas abstraksinya. Saya mengerti bagaimana menafsirkan OLS. 1 unit peningkatan x mengarah ke peningkatan beta_1 di y. Jika saya melakukan transformasi log ke y, maka peningkatan 1 unit di x mengarah ke peningkatan 100 * beta_1% di y. Saya tidak mengerti apa yang harus dilakukan dengan Poisson. Jika saya tahu beta_1, peningkatan 1 unit dalam x mengarah ke peningkatan apa dalam y?
user1690130

Ada dalam jawabannya, di paragraf ke-3. Peningkatan 1 unit dalam x mengarah ke exp (β1) kali meningkat y. Katakanlah 'tua' Anda berusia 10 tahun, danβ1=2, lalu exp (β1) = 7,4, dan y akan menjadi 10 kali 7,4, yaitu 74. Jika ada pengamatan lain yang masih 1 unit lebih tinggi, itu akan menjadi 74 * 7,4, dll.
gung - Reinstate Monica

Saya tidak mengerti karena tampaknya tergantung pada nilai-nilai x dan y? Apakah ada "efek marginal" yang cenderung dilalui orang? Misalnya, bukankah orang menggunakan mfx di Stata untuk melaporkan perkiraan probit?
user1690130

1
Saya tidak mengikuti itu. Anda tidak membandingkan OLS dengan Poisson; mereka adalah berbagai jenis model untuk berbagai jenis situasi / fenomena. Mereka bukan 2 model berbeda dari hal yang sama di mana 1 model mungkin akun yang lebih baik daripada yang lain. Anda tidak akan membandingkan anak kucing & pohon Natal untuk melihat apakah saya lebih baik. Saya tidak mengerti bagaimana Anda menggunakan frasa "efek marginal", jika yang Anda maksud adalah efek prediktor yang mengabaikan efek dari semua variabel lain (seperti efek marginal dari suatu faktor dalam ANOVA), lalu exp (β1) adalah efek multiplikasi marginal dari x1.
gung - Reinstate Monica

1
Saya, seperti @gung, tidak yakin apa yang Anda coba lakukan. Tetapi jika Anda ingin membandingkan hasil dari kedua model, Anda dapat memplot nilai yang diprediksi satu sama lain di scatterplot. Membandingkan koefisien tidak masuk akal.
Peter Flom
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.