Dispersi dan alternatif pemodelan dalam model efek acak Poisson dengan offset

Saya telah menemukan sejumlah pertanyaan praktis ketika memodelkan menghitung data dari penelitian eksperimental menggunakan eksperimen dalam subjek. Saya jelaskan secara singkat eksperimen, data, dan apa yang telah saya lakukan sejauh ini, diikuti oleh pertanyaan saya.

Empat film berbeda diperlihatkan kepada sampel responden secara berurutan. Setelah setiap film wawancara dilakukan dimana kami menghitung jumlah kemunculan pernyataan tertentu yang menarik untuk RQ (variabel penghitungan yang diprediksi). Kami juga mencatat jumlah maksimum kejadian yang mungkin terjadi (unit pengkodean; variabel offset). Selain itu, beberapa fitur film diukur pada skala kontinu, di antaranya untuk satu kami memiliki hipotesis kausal dari efek fitur film pada jumlah pernyataan sementara yang lain adalah kontrol (prediktor).

Strategi pemodelan yang diadopsi sejauh ini adalah sebagai berikut:

Perkirakan model Poisson efek acak, di mana variabel kausal digunakan sebagai kovariat dan variabel lainnya sebagai kovariat kontrol. Model ini memiliki offset sama dengan 'log (unit)' (unit pengkodean). Efek acak diambil antar subjek (jumlah spesifik film bersarang pada subjek). Kami menemukan hipotesis kausal dikonfirmasi (sig. Koefisien variabel penyebab). Dalam estimasi kami menggunakan paket lme4 dalam R, khususnya fungsi glmer.

Sekarang saya punya pertanyaan berikut. Masalah umum dalam regresi Poisson adalah penyebaran berlebihan. Saya tahu bahwa ini dapat diuji dengan menggunakan regresi binomial negatif dan mengevaluasi apakah parameter dispersinya meningkatkan kesesuaian model model Poisson sederhana. Namun, saya tidak tahu bagaimana melakukannya dalam konteks efek acak.

Bagaimana saya harus menguji penyebaran berlebihan dalam situasi saya? Saya menguji penyebaran berlebihan dalam Poisson sederhana / regresi binomial negatif (tanpa efek acak) yang saya tahu bagaimana menyesuaikannya. Tes ini menunjukkan adanya overdispersi. Namun karena model ini tidak memperhitungkan pengelompokan, saya kira tes ini salah. Juga saya tidak yakin tentang peran offset untuk pengujian overdispersi.
Apakah ada sesuatu seperti model regresi efek acak binomial negatif dan bagaimana saya harus memasangnya dalam R?
Apakah Anda memiliki saran untuk model alternatif yang harus saya coba pada data, yaitu mengambil struktur ukuran berulang, menghitung variabel dan paparan (unit pengkodean) ke dalam akun?

— Tomka
sumber

sebagai permulaan, lihat bagian "overdispersion" di glmm.wikidot.com/faq

— Ben Bolker

Terima kasih, sangat membantu! Mungkin seseorang ingin menyusun jawaban dari ini dan informasi lainnya.

— Tomka

$[0,\infty)$

Daripada memeriksa penyebaran berlebih , yang tidak memiliki jaminan mengarah ke jawaban yang bermanfaat, dan, meskipun orang dapat memeriksa indeks dispersi untuk mengukur dispersi, saya lebih suka menyarankan mencari distribusi terbaik menggunakan opsi distribusi diskrit dari pencarian kualitas yang sesuai. program, misalnya, rutin FindDistribution Mathematica . Jenis pencarian itu melakukan pekerjaan yang cukup lengkap untuk menebak distribusi apa yang dikenal paling baik tidak hanya untuk mengurangi penyebaran berlebihan, tetapi juga untuk lebih memodelkan banyak karakteristik data lainnya, misalnya, good of fit yang diukur selusin cara yang berbeda.

Untuk menguji lebih jauh distribusi calon saya, saya akan posting hoc memeriksa residu untuk memeriksa homoscedasticity, dan / atau jenis distribusi, dan juga mempertimbangkan apakah distribusi kandidat dapat didamaikan sebagai sesuai dengan penjelasan fisik dari data. Bahaya prosedur ini adalah mengidentifikasi distribusi yang tidak konsisten dengan pemodelan terbaik dari kumpulan data yang diperluas. Bahaya tidak melakukan prosedur pasca-hoc adalah bagi apriori menetapkan distribusi yang dipilih secara sewenang-wenang tanpa pengujian yang tepat (sampah masuk-sampah keluar). Keunggulan post hocPendekatannya adalah bahwa ia membatasi kesalahan pemasangan, dan itu juga kelemahannya, yaitu, ia dapat mengecilkan kesalahan pemodelan melalui peluang murni karena banyak distribusi yang cocok dicoba. Itu kemudian, adalah alasan untuk memeriksa residu dan mempertimbangkan fisik. Pendekatan top down atau apriori tidak menawarkan pemeriksaan post hoc seperti itu pada kewajaran. Artinya, satu-satunya metode membandingkan fisik pemodelan dengan distribusi yang berbeda, adalah untuk mengirim hoc membandingkan mereka. Dengan demikian muncul sifat teori fisik, kami menguji penjelasan hipotetis data dengan banyak eksperimen sebelum kami menerimanya sebagai penjelasan alternatif yang melelahkan.

— Carl
sumber