Bagaimana cara memutuskan keluarga GLM mana yang akan digunakan?

Saya memiliki data kepadatan ikan yang saya coba bandingkan di antara beberapa teknik pengumpulan yang berbeda, datanya memiliki banyak nol, dan histogram terlihat vaugley sesuai untuk distribusi poisson kecuali bahwa, sebagai kepadatan, itu bukan data integer. Saya relatif baru di GLM dan telah menghabiskan beberapa hari terakhir mencari online cara mengetahui distribusi mana yang akan digunakan tetapi telah gagal total dalam menemukan sumber daya apa pun yang membantu membuat keputusan ini. Contoh histogram data terlihat seperti berikut:

Saya tidak tahu bagaimana cara memutuskan keluarga yang tepat untuk digunakan untuk GLM. Jika ada yang punya saran atau bisa memberi saya sumber daya yang harus saya periksa, itu akan fantastis.

— C. Denney
sumber

Apa sebenarnya "kepadatan ikan"? Apakah ini jumlah ikan per unit volume danau, misalnya?

— gung - Reinstate Monica

Jumlah ikan per satuan luas (dalam hal ini meter persegi). Kami menggunakan alat survei visual, sehingga dihitung dengan jumlah ikan yang diamati dibagi dengan daerah yang disurvei oleh alat. Kami harus menggunakan kepadatan untuk menstandardisasi antar alat karena mereka mensurvei jumlah area yang sangat berbeda, jika tidak saya hanya bisa menggunakan data jumlah dan tetap menggunakan distribusi poisson.

— C. Denney

Saran saya - kembali ke hitungan data dan gunakan "area" sebagai offset dalam model dengan tautan log --- tapi saya tidak tahu bahwa Poisson akan sangat cocok (agak sulit ditebak karena histogram Anda hanya menunjukkan distribusi marginal daripada distribusi bersyarat yang akan dimodelkan oleh GLM ... dan dalam kasus apa pun memiliki terlalu sedikit tempat sampah untuk banyak digunakan). Jika Poisson tidak cukup berat / spike-at-0-ish cukup, binomial negatif mungkin bekerja, atau Anda mungkin perlu model inflasi nol atau rintangan

— Glen_b -Reinstate Monica

Saya melakukan pemodelan Poisson sepanjang hari-setiap-hari dan komentar Glen_b adalah jawaban kanonik.

— Paul

Satu tambahan - Pemodelan Poisson secara teoritis dibenarkan ketika unit pengamatan (dalam hal ini, saya kira Anda menghitung ikan individu?) Didistribusikan secara independen di seluruh bidang pengamatan, seperti butiran pasir berserakan secara acak. Berdasarkan asumsi ini mungkin ada beberapa variasi dalam kepadatan, tetapi posisi satu ikan tidak berarti apa-apa tentang posisi ikan lain. Tetapi berhati-hatilah anggapan ini dapat dilanggar dalam praktik karena ikan berkelompok, misalnya ke sekolah-sekolah, dan kemudian posisi mereka tidak lagi independen.

— Paul

Jawaban:

Keluarga GLM terdiri dari fungsi tautan serta hubungan mean-variance. Untuk Poisson GLM, fungsi tautan adalah log, dan hubungan mean-variance adalah identitas. Terlepas dari peringatan yang diberikan oleh sebagian besar perangkat lunak statistik, sangat masuk akal untuk memodelkan hubungan dalam data berkelanjutan di mana hubungan antara dua variabel linier pada skala log, dan variansnya meningkat sesuai dengan rata-rata.

Ini, pada dasarnya, adalah alasan untuk memilih fungsi tautan dan varians dalam GLM. Tentu saja, ada beberapa asumsi di balik proses ini. Anda dapat membuat model yang lebih kuat dengan menggunakan quasilikelihood (lihat ?quasipoisson) atau kesalahan standar yang kuat (lihat paket sandwichatau gee).

Anda telah mencatat dengan benar bahwa banyak kepadatan adalah 0 dalam data Anda. Di bawah model probabilitas Poisson, adalah tepat untuk sesekali mengambil sampel 0s dalam data, jadi itu tidak selalu menjadi kasus bahwa pengamatan ini mengarah pada bias dalam estimasi tarif Anda.

Untuk memeriksa asumsi di balik GLM, biasanya bermanfaat untuk melihat residu Pearson. Ini menjelaskan hubungan varians rata-rata dan menunjukkan ahli statistik apakah pengamatan tertentu, seperti 0s ini, sangat memengaruhi estimasi dan hasil.

— AdamO
sumber

Model linier umum didefinisikan dalam hal prediktor linier

η = X β

$\eta = \boldsymbol{X} \beta$

$g$

g (E (Y | X)) = η

$g(E(Y\,|\,\boldsymbol{X})) = \eta$

$Y$ $\boldsymbol{X} = X_1,X_2,\dots,X_k$ $Y$ $\boldsymbol{X}$

E (Y | X) = μ = g^{- 1} (η)

$E(Y\,|\,\boldsymbol{X} ) = \mu = g^{-1}(\eta)$

sehingga model dapat didefinisikan dalam istilah probabilistik sebagai

Y | X \sim f (μ, σ^{2})

$Y\,|\,\boldsymbol{X} \sim f(\mu, \sigma^2)$

$f$ $f$ $Y$ $Y$ $\boldsymbol{X}$ $Y$ $\boldsymbol{X}$

Jika hasil Anda kontinu dan tidak terbatas, maka pilihan paling "default" adalah distribusi Gaussian ( distribusi normal ), yaitu regresi linier standar (kecuali jika Anda menggunakan fungsi tautan lainnya maka tautan identitas default).
Jika Anda berurusan dengan hasil non-negatif terus menerus , maka Anda dapat mempertimbangkan distribusi Gamma , atau distribusi Inverse Gaussian .
Jika hasil Anda diskrit , atau lebih tepatnya, Anda berhadapan dengan penghitungan (berapa kali sesuatu terjadi dalam interval waktu tertentu), maka pilihan distribusi yang paling umum untuk memulai adalah distribusi Poisson . Masalah dengan distribusi Poisson adalah bahwa itu agak tidak fleksibel dalam kenyataan bahwa ia mengasumsikan bahwa rata-rata sama dengan varians, jika asumsi ini tidak terpenuhi, Anda dapat mempertimbangkan menggunakan keluarga quasi-Poisson , atau distribusi binomial negatif (lihat juga Definisi dispersi parameter untuk keluarga quasipoisson ).
Jika hasil Anda adalah biner (nol dan satu), proporsi "keberhasilan" dan "kegagalan" (nilai antara 0 dan 1), atau jumlah mereka , Anda dapat menggunakan distribusi Binomial , yaitu model regresi logistik . Jika ada lebih dari dua kategori, Anda akan menggunakan distribusi multinomial dalam regresi multinomial .

Di sisi lain, dalam praktiknya, jika Anda tertarik untuk membangun model prediksi, Anda mungkin tertarik untuk menguji beberapa distribusi yang berbeda, dan pada akhirnya mengetahui bahwa salah satu dari mereka memberi Anda hasil yang lebih akurat daripada yang lain bahkan jika itu bukan paling "tepat" dalam hal pertimbangan teoretis (misalnya dalam teori Anda harus menggunakan Poisson, tetapi dalam praktiknya regresi linier standar paling cocok untuk data Anda).

— Tim
sumber

Ini adalah pertanyaan yang agak luas, Anda bertanya bagaimana melakukan pemodelan, dan ada seluruh buku yang didedikasikan untuk itu. Misalnya, saat berurusan dengan data jumlah, pertimbangkan hal berikut:

Selain memilih distribusi, Anda harus memilih fungsi tautan. Dengan data jumlah, Anda dapat mencoba distribusi binomial poisson atau negatif, dan fungsi tautan log. Alasan untuk tautan log diberikan di sini: Goodness of fit dan model mana untuk memilih regresi linier atau Poisson. Jika tambalan Anda memiliki area yang sangat berbeda, mungkin Anda harus memasukkan logaritma area sebagai offset, untuk memodelkan jumlah per unit area dan tidak mutlak penting. Untuk penjelasan offset dalam regresi data hitung, lihat Kapan menggunakan offset dalam regresi Poisson?

EDIT

Jawaban ini awalnya diposting ke pertanyaan lain, yang digabung dengan yang ini. Walaupun jawabannya umum, jawabannya adalah spesifik dari kumpulan data dan masalah yang tidak ada lagi dalam pertanyaan. Pertanyaan asli dapat ditemukan di tautan berikut: Keluarga di GLM - bagaimana memilih yang benar?

— kjetil b halvorsen
sumber

Kami tidak dapat menghapus pertanyaan, @kjetil, hanya para pengembang yang dapat melakukannya (& mereka benar-benar tidak suka). Saya masih dapat mengakses Q asli. 1 kemungkinan adalah bahwa saya dapat menyalin konten ke Q baru (yang akan ditulis oleh saya), Anda dapat menyalin A ini ke utas baru, & kemudian saya bisa menutup utas itu sebagai duplikat dari ini. Sulit untuk mengatakan apakah itu ide gila, atau jika itu sepadan dengan masalahnya, tetapi itulah yang bisa saya lakukan. Apakah Anda punya preferensi?

— gung - Reinstate Monica

@ung: Anda dapat melakukannya, atau saya dapat menyalin informasi dari pertanyaan itu ke dalam jawabannya di sini. Mungkin itu yang terbaik? (Saya dapat mengeditnya dari riwayat edit)

— kjetil b halvorsen

@ kjetilbhalvorsen pertama-tama, maaf karena mengacaukan karena itu adalah ide saya untuk menggabungkan utas karena tampaknya hampir sama dan keduanya berisi jawaban yang baik. Kesan awal saya adalah bahwa menggabungkan utas tidak akan membahayakan. Mungkin Anda bisa menambahkan "Misalnya, ketika berhadapan dengan data hitung ..." ke paragraf kedua Anda? Jawaban Anda dengan baik menjawab jenderal "Bagaimana memilih keluarga?" pertanyaan, jadi mungkin ada baiknya meninggalkannya di utas umum?

— Tim

@Tim saya akan mengedit seperti yang Anda katakan!

— kjetil b halvorsen

Mari kita coba sunting. Jika Anda ingin saya memposting ulang Q, ping saya lagi. Saya akan mengabaikan bendera sekarang.

— gung - Reinstate Monica