Model regresi apa yang paling tepat untuk digunakan dengan data jumlah?

Saya mencoba memasukkan sedikit ke dalam statistik, tetapi saya terjebak dengan sesuatu. Data saya adalah sebagai berikut:

Year   Number_of_genes
1990          1
1991          1
1993          3
1995          4

Sekarang saya ingin membangun model regresi untuk dapat memprediksi jumlah gen untuk tahun tertentu berdasarkan data. Saya melakukannya dengan regresi linier sampai sekarang, tetapi saya telah melakukan beberapa pembacaan dan sepertinya bukan pilihan terbaik untuk data jenis ini. Saya telah membaca bahwa regresi Poisson mungkin berguna, tetapi saya tidak yakin apa yang harus digunakan. Jadi pertanyaan saya adalah:

Apakah ada model regresi umum untuk data seperti ini? Jika tidak, apa yang harus saya lakukan untuk mengetahui metode mana yang paling tepat untuk digunakan (dalam hal apa yang harus saya ketahui tentang data)?

regression count-data poisson-regression

— sequence_hard
sumber

Jawaban saya di sini: stats.stackexchange.com/questions/142338/… sangat relevan.

— kjetil b halvorsen

Apakah ini tentang data deret waktu?

— Michael M

Jawaban:

Tidak, tidak ada model regresi data hitung umum .

(Sama seperti tidak ada model regresi umum untuk data kontinu. Model linier dengan noise homoskedastik terdistribusi normal paling sering diasumsikan, dan dilengkapi dengan menggunakan Ordinary Least Squares. Namun, regresi gamma atau regresi eksponensial sering digunakan untuk menangani asumsi distribusi kesalahan yang berbeda , atau model heteroskedastisitas bersyarat, seperti ARCH atau GARCH dalam konteks deret waktu, untuk menangani kebisingan heteroskedastik.)

Model umum termasuk regresi poisson , saat Anda menulis, atau Regresi Binomial Negatif. Model-model ini cukup luas untuk menemukan semua jenis perangkat lunak, tutorial atau buku teks. Saya terutama menyukai Regresi Binomial Negatif Hilbe . Pertanyaan sebelumnya ini membahas bagaimana memilih antara model data jumlah yang berbeda.

Jika Anda memiliki "banyak" nol dalam data Anda, dan terutama jika Anda menduga bahwa nol dapat didorong oleh proses penghasil data yang berbeda dari bukan nol (atau bahwa beberapa nol berasal dari satu DGP, dan nol lainnya dan non-nol datang dari DGP yang berbeda), model nol-inflasi mungkin berguna. Yang paling umum adalah regresi zero-inflated Poisson (ZIP).

Anda juga dapat membaca pertanyaan sebelumnya dengan menandai "regresi" dan "data hitung" .

EDIT: @MichaelM memunculkan poin yang bagus. Ini memang terlihat seperti deret waktu dari jumlah data. (Dan data yang hilang untuk tahun 1992 dan 1994 menunjukkan kepada saya bahwa harus ada nol di setiap tahun-tahun ini. Jika demikian, sertakan itu. Nol adalah angka yang valid, dan memang membawa informasi.) Mengingat hal ini, saya Kami juga menyarankan untuk melihat melalui pertanyaan kami sebelumnya yang ditandai "seri waktu" dan "data hitung" .

— Stephan Kolassa
sumber

Bagus, tapi Kotak Terkecil Biasa adalah prosedur estimasi, bukan model. Anda tahu itu, tetapi ini adalah kebingungan yang umum, jadi kita tidak boleh menulis untuk menghindarinya.

— Nick Cox

@NickCox: poin bagus. Saya mengedit posting saya.

— Stephan Kolassa

Distribusi "default", yang paling umum digunakan dan dijelaskan, untuk data jumlah adalah distribusi Poisson . Paling sering diilustrasikan menggunakan contoh penggunaan praktis pertama:

Aplikasi praktis dari distribusi ini dibuat oleh Ladislaus Bortkiewicz pada tahun 1898 ketika ia diberi tugas untuk menyelidiki jumlah tentara di pasukan Prusia yang terbunuh secara tidak sengaja oleh tendangan kuda; Percobaan ini memperkenalkan distribusi Poisson ke bidang teknik keandalan.

Distribusi poisson ditentukan oleh laju per interval waktu tetap ( juga berarti dan variansnya). Dalam kasus regresi, kita dapat menggunakan distribusi Poisson dalam model linier umum dengan fungsi link-linear $\lambda$ $\lambda$

E (Y | X, β) = λ = \exp (β_{0} + β_{1} X_{1} + \dots + β_{k} X_{k})

$E(Y|X,\beta) = \lambda = \exp\left( \beta_0 + \beta_1 X_1 + \dots + \beta_k X_k \right)$

yang disebut regresi Poisson , karena kita dapat mengasumsikan bahwa adalah tingkat distribusi Poisson. Namun perhatikan bahwa untuk regresi log-linier Anda tidak harus membuat asumsi seperti itu dan cukup menggunakan GLM dengan tautan log dengan data yang tidak dihitung. Ketika menafsirkan parameter yang perlu Anda ingat bahwa, karena menggunakan transformasi log, perubahan variabel independen menghasilkan perubahan multiplikatif dalam jumlah yang diprediksi. $\lambda$

Masalah dengan menggunakan distribusi Poisson untuk data kehidupan nyata adalah mengasumsikan berarti sama dengan varians. Pelanggaran terhadap asumsi ini disebut overdispersion . Dalam kasus seperti itu Anda selalu dapat menggunakan model kuasi-Poisson , model log-linear non-Poisson (untuk jumlah besar Poisson dapat didekati dengan distribusi normal), regresi binomial negatif (terkait erat dengan Poisson; lihat Berk dan MacDonald, 2008), atau model lain, seperti yang dijelaskan oleh Stephan Kolassa .

Untuk beberapa pengantar yang ramah untuk regresi Poisson Anda juga dapat memeriksa makalah oleh Lavery (2010), atau Coxe, West dan Aiken (2009).

Lavery, R. (2010). Panduan Animasi: Pengantar Regresi Poisson. Kertas NESUG, sa04.

Coxe, S., West, SG, & Aiken, LS (2009). Analisis data jumlah: Pengantar lembut untuk regresi Poisson dan alternatifnya. Jurnal penilaian kepribadian, 91 (2), 121-136.

Berk, R., & MacDonald, JM (2008). Penyebaran berlebihan dan regresi Poisson. Jurnal Kriminologi Kuantitatif, 24 (3), 269-284.

— Tim
sumber

Anda mengacaukan pas distribusi Poisson dengan menggunakan regresi Poisson. Ini bukan persyaratan mutlak untuk regresi Poisson bahwa respons memiliki distribusi Poisson. Regresi Poisson bekerja dengan baik untuk berbagai macam respons positif, termasuk variabel yang diukur juga. Sebaiknya berhati-hati tentang kesalahan standar untuk inferensi, tapi itu bisa dilakukan. Lihat misalnya blog.stata.com/2011/08/22/...

— Nick Cox

@NickCox benar, tapi pertanyaannya adalah tentang jumlah data, jadi mungkin tidak perlu masuk ke detail tentang penggunaan lain dari regresi Poisson.

— Tim

Tidak perlu masuk ke detail, disepakati; tetapi setiap alasan untuk mendorong regresi Poisson sedikit. Utilitasnya sangat sedikit diketahui; paling tidak pantas ada di banyak teks perantara. Juga, dan yang lebih penting di sini, saya tidak setuju sama sekali bahwa varians sekali tidak sama dengan berarti Anda harus menggunakan model lain; ini membingungkan dua masalah yang sangat berbeda.

— Nick Cox

Selain itu, fakta bahwa regresi Poisson dapat digunakan dengan variabel yang diukur adalah relevan, seperti dalam kasus-kasus seperti apakah mean sama dengan varians bahkan tidak bermakna karena mereka memiliki dimensi yang berbeda. Kasus-kasus seperti itu dengan demikian menggarisbawahi bahwa persyaratannya tidak ada.

— Nick Cox

Bagian dari masalahnya adalah terminologi. Regresi loglinear dalam pandangan saya akan menjadi istilah yang lebih baik daripada regresi Poisson, mengingat titik kunci bahwa menjadi Poisson bukanlah pusat. Tetapi jika istilah seperti itu digunakan dan dipahami sama sekali, itu biasanya sepenuhnya untuk pemodelan data kategorik yang dihitung. Jadi, terminologinya agak salah: loglinear harus Poisson dan Poisson harus loglinear. Either way, inti dari masalah ini adalah bahwa adalah port panggilan pertama yang sangat baik untuk struktur rata-rata tanggapan non-negatif secara umum.

\exp (X b)

$\exp(Xb)$

— Nick Cox

Poisson atau binomial negatif adalah dua model yang banyak digunakan untuk menghitung data. Saya akan memilih binomial negatif karena memiliki asumsi varian yang lebih baik.

Apa yang Anda maksud dengan "lebih baik"?

— Tim

Seperti berdiri ini lebih dari komentar daripada jawaban. Apakah Anda pikir Anda bisa mengembangkannya? Anda tentu harus memikirkan komentar Tim - kata "lebih baik" sangat kabur

— Silverfish

Model-model negatif binomial (NB) menangani data jumlah overdispersed (OD) dengan mengasumsikan itu disebabkan oleh pengelompokan. Kemudian menggunakan model intersep acak dengan Poisson didistribusikan 'di dalam' dan gamma didistribusikan 'antara' struktur. Mana yang lebih baik tergantung pada asumsi Anda untuk OD. Jika Anda menganggap tingkat OD bervariasi dengan ukuran cluster, NB dapat membantu. Jika Anda menganggap Anda menganggap OD sebanding dengan ukuran cluster, quasi-poisson memiliki asumsi ini. Perkiraan NB akan bias jika OD hanya noise Gaussian. Poisson akan kurang bias, tetapi kesalahan standar mungkin terlalu kecil dengan OD.

— Mainard