Jawaban ini tidak didasarkan pada pengetahuan saya melainkan mengutip apa yang Bolker dkk. (2009) menulis dalam makalah berpengaruh dalam jurnal Trends in Ecology and Evolution . Karena artikel ini bukan akses terbuka (walaupun mencarinya di Google sarjana mungkin terbukti berhasil, saya pikir saya mengutip bagian-bagian penting yang mungkin membantu untuk mengatasi sebagian dari pertanyaan. Jadi sekali lagi, bukan itu yang saya pikirkan sendiri tetapi saya pikir itu merupakan informasi terkondensasi terbaik tentang GLMM (termasuk diagnosa) di luar sana dalam gaya tulisan yang sangat lurus ke depan dan mudah dimengerti.Jika jawaban ini tidak cocok untuk alasan apa pun, saya hanya akan menghapusnya. Hal-hal yang saya temukan berguna sehubungan dengan pertanyaan tentang diagnostik disorot diberani .
Halaman 127:
Para peneliti yang dihadapkan dengan data nonnormal sering mencoba cara pintas seperti mengubah data untuk mencapai normalitas dan homogenitas varians, menggunakan tes nonparametrik atau mengandalkan kekokohan ANOVA klasik untuk nonnormalitas untuk desain seimbang [15]. Mereka mungkin mengabaikan efek acak sama sekali (sehingga melakukan replikasi pseudor) atau memperlakukan mereka sebagai faktor tetap [16]. Namun, pintasan seperti itu dapat gagal (mis. Menghitung data dengan banyak nilai nol tidak dapat dibuat normal dengan transformasi). Bahkan ketika mereka berhasil, mereka mungkin melanggar asumsi statistik (bahkan tes nonparametrik membuat asumsi, misalnya homogenitas varians lintas kelompok) atau membatasi ruang lingkup inferensi (orang tidak dapat memperkirakan perkiraan efek tetap untuk kelompok baru). Alih-alih menyatukan data mereka ke dalam kerangka statistik klasik, peneliti harus menggunakan pendekatan statistik yang sesuai dengan data mereka. Generalized linear mixed models (GLMMs) menggabungkan sifat-sifat dua kerangka kerja statistik yang banyak digunakan dalam ekologi dan evolusi, model campuran linier (yang memasukkan efek acak) dan model linear umum (yang menangani data nonnormal dengan menggunakan fungsi tautan dan keluarga eksponensial [misalnya distribusi normal, Poisson atau binomial]. GLMM adalah alat terbaik untuk menganalisis data nonnormal yang melibatkan efek acak: semua yang harus dilakukan, pada prinsipnya, adalah menentukan distribusi, fungsi tautan, dan struktur efek acak. model campuran linier (yang menggabungkan efek acak) dan model linier umum (yang menangani data tidak normal dengan menggunakan fungsi tautan dan distribusi keluarga eksponensial [mis. distribusi normal, Poisson atau binomial]). GLMM adalah alat terbaik untuk menganalisis data nonnormal yang melibatkan efek acak: semua yang harus dilakukan, pada prinsipnya, adalah menentukan distribusi, fungsi tautan, dan struktur efek acak. model campuran linier (yang menggabungkan efek acak) dan model linier umum (yang menangani data tidak normal dengan menggunakan fungsi tautan dan distribusi keluarga eksponensial [mis. distribusi normal, Poisson atau binomial]). GLMMs adalah alat terbaik untuk menganalisis data nonnormal yang melibatkan efek acak: yang harus dilakukan, pada prinsipnya, adalah menentukan distribusi, fungsi tautan, dan struktur efek acak.
Halaman 129, Kotak 1:
The residual mengindikasikan overdispersion , jadi kami dipasang kembali data dengan model kuasi-Poisson. Meskipun parameter skala estimasi besar (10.8), grafik eksplorasi tidak menemukan bukti outlier pada tingkat individu, genotipe atau populasi. Kami menggunakan quasi-AIC (QAIC), menggunakan satu derajat kebebasan untuk efek acak [49], untuk randomeffect dan kemudian untuk pemilihan model efek tetap.
Halaman 133, Kotak 4:
Di sini kami menguraikan kerangka umum untuk membangun model penuh (paling kompleks), langkah pertama dalam analisis GLMM. Setelah proses ini, seseorang kemudian dapat mengevaluasi parameter dan membandingkan submodels seperti yang dijelaskan dalam teks utama dan pada Gambar 1.
Tentukan efek tetap (perawatan atau kovariat) dan acak (blok eksperimental, spasial atau temporal, individu, dll.). Hanya sertakan interaksi penting. Batasi model a priori hingga tingkat kompleksitas yang layak, berdasarkan aturan praktis (> 5-6 tingkat efek-acak per efek acak dan> 10-20 sampel per tingkat perlakuan atau unit eksperimental) dan pengetahuan tentang ukuran sampel yang memadai yang diperoleh dari penelitian sebelumnya [64,65].
Pilih distribusi kesalahan dan fungsi tautan (mis. Distribusi Poisson dan tautan log untuk data jumlah, distribusi binomial, dan tautan logit untuk data proporsi).
Pengecekan grafis : apakah varian data (ditransformasikan oleh fungsi tautan) homogen di seluruh kategori? Apakah tanggapan terhadap data yang ditransformasikan linier sehubungan dengan prediktor berkelanjutan? Apakah ada individu atau kelompok yang outlier? Apakah distribusi dalam kelompok cocok dengan distribusi yang diasumsikan?
Cocok GLM efek tetap baik untuk set data lengkap (dikumpulkan) dan dalam setiap tingkat faktor acak [28,50]. Parameter yang diperkirakan harus kira-kira terdistribusi secara normal antar kelompok (parameter tingkat kelompok dapat memiliki ketidakpastian besar, terutama untuk kelompok dengan ukuran sampel kecil). Sesuaikan model seperlunya (mis. Ubah fungsi tautan atau tambahkan kovariat).
Paskan GLMM lengkap. Memori komputer tidak mencukupi atau terlalu lambat: kurangi kompleksitas model. Jika estimasi berhasil pada subset data, coba algoritma estimasi yang lebih efisien (mis. PQL jika perlu). Gagal berkumpul (peringatan atau kesalahan): kurangi kompleksitas model atau ubah pengaturan optimisasi (pastikan jawaban yang dihasilkan masuk akal). Coba algoritma estimasi lain. Komponen tanpa variasi atau singularitas (peringatan atau kesalahan): periksa apakah model didefinisikan dengan benar dan dapat diidentifikasi (mis. Semua komponen secara teoritis dapat diperkirakan). Kurangi kompleksitas model. Menambahkan informasi ke model (kovariat tambahan, atau pengelompokan baru untuk efek acak) dapat mengatasi masalah, karena akan memusatkan kovariat berkesinambungan dengan mengurangi rata-rata mereka [50]. Jika perlu, hilangkan efek acak dari model penuh, menjatuhkan (i) persyaratan yang kurang menarik secara biologis, (ii) ketentuan dengan varians yang diperkirakan sangat kecil dan / atau ketidakpastian yang besar, atau (iii) istilah interaksi. (Kesalahan konvergensi atau nol varians dapat menunjukkan data tidak cukup.)
χ2
Plot residual harus digunakan untuk menilai penyebaran berlebihan dan varian yang diubah harus homogen di seluruh kategori. Tidak ada dalam artikel yang disebutkan bahwa residu seharusnya didistribusikan secara normal.
Saya pikir alasan mengapa ada pernyataan yang berbeda mencerminkan bahwa GLMM (halaman 127-128) ...
... secara mengejutkan sulit untuk digunakan bahkan untuk ahli statistik. Meskipun beberapa paket perangkat lunak dapat menangani GLMM (Tabel 1), beberapa ahli ekologi dan ahli biologi evolusi menyadari berbagai pilihan atau kemungkinan perangkap. Dalam meninjau makalah dalam ekologi dan evolusi sejak 2005 ditemukan oleh Google Cendekia, 311 dari 537 analisis GLMM (58%) menggunakan alat-alat ini secara tidak tepat dalam beberapa cara (lihat materi pelengkap online).
Dan berikut adalah beberapa contoh yang berfungsi penuh menggunakan GLMM termasuk diagnostik.
Saya menyadari bahwa jawaban ini lebih seperti komentar dan harus diperlakukan seperti itu. Tetapi bagian komentar tidak memungkinkan saya untuk menambahkan komentar yang panjang. Juga karena saya percaya makalah ini bermanfaat untuk diskusi ini (tapi sayangnya di balik tembok pembayaran), saya pikir akan bermanfaat untuk mengutip bagian-bagian penting di sini.
Makalah yang dikutip:
[15] - GP Quinn, MJ Keough (2002): Desain Eksperimental dan Analisis Data untuk Ahli Biologi, Cambridge University Press.
[16] - MJ Crawley (2002): Komputasi Statistik: Pengantar Analisis Data Menggunakan S-PLUS, John Wiley & Sons.
[28] - JC Pinheiro, DM Bates (2000): Model Efek Campuran dalam S dan S-PLUS, Springer.
[49] - F. Vaida, S. Blanchard (2005): Informasi Akaike bersyarat untuk model efek campuran. Biometrika, 92, hlm. 351–370.
[50] - A. Gelman, J. Hill (2006): Analisis Data Menggunakan Regresi dan Model Multilevel / Hirarki, Cambridge University Press.
[64] - NJ Gotelli, AM Ellison (2004): A Primer of Ecological Statistics, Sinauer Associates.
[65] - FJ Harrell (2001): Strategi Pemodelan Regresi, Springer.
[66] - JK Lindsey (1997): Menerapkan Generalized Linear Models, Springer.
[67] - W. Venables, BD Ripley (2002): Statistik Terapan Modern dengan S, Springer.
glm.diag.plots
mengatakan itu untuk sisa penyimpangan jackknifed (saya menduga perbedaan itu penting). Saya juga mengumpulkan data jumlah ; Anda mungkin ingin fokus pada fakta itu. Misalnya, jumlah dianggap (dalam beberapa hal) menjadi heteroscedastic. Plot diagnostik untuk regresi jumlah harus membantu Anda (meskipun tidak membahas aspek efek campuran).