Munculnya model linier umum telah memungkinkan kami untuk membangun model tipe regresi data ketika distribusi variabel respon tidak normal - misalnya, ketika DV Anda adalah biner. (Jika Anda ingin tahu lebih banyak tentang GLiMs, saya menulis jawaban yang cukup luas di sini , yang mungkin berguna meskipun konteksnya berbeda.) Namun, GLiM, misalnya model regresi logistik, mengasumsikan bahwa data Anda independen . Misalnya, bayangkan sebuah penelitian yang meneliti apakah seorang anak menderita asma. Setiap anak berkontribusi satudata menunjukkan penelitian - mereka memiliki asma atau tidak. Namun, terkadang data tidak independen. Pertimbangkan penelitian lain yang meneliti apakah seorang anak menderita flu di berbagai titik selama tahun sekolah. Dalam hal ini, setiap anak berkontribusi banyak poin data. Pada suatu waktu seorang anak mungkin pilek, kemudian mereka mungkin tidak, dan masih kemudian mereka mungkin pilek lagi. Data ini tidak independen karena mereka berasal dari anak yang sama. Untuk menganalisis data ini dengan tepat, kita perlu memperhitungkan ketidak-independenan ini. Ada dua cara: Salah satu caranya adalah dengan menggunakan persamaan estimasi umum (yang tidak Anda sebutkan, jadi kami akan lewati). Cara lain adalah dengan menggunakan model campuran linier umum. GLiMM dapat menjelaskan non-kemerdekaan dengan menambahkan efek acak (seperti catatan @MichaelChernick). Dengan demikian, jawabannya adalah bahwa pilihan kedua Anda adalah untuk data berulang yang tidak normal (atau tidak independen). (Saya harus menyebutkan, sesuai dengan komentar @ Makro ini, yang umum- terwujud linear model campuran Namun termasuk model linear sebagai kasus khusus dan dengan demikian dapat digunakan dengan data terdistribusi normal., Dalam penggunaan khas berkonotasi jangka data non-normal.)
Pembaruan: (OP telah bertanya tentang GEE juga, jadi saya akan menulis sedikit tentang bagaimana ketiganya berhubungan satu sama lain.)
Berikut ini gambaran dasar:
- GLiM yang khas (saya akan menggunakan regresi logistik sebagai kasus prototipikal) memungkinkan Anda memodelkan respons biner independen sebagai fungsi kovariat
- GLMM memungkinkan Anda memodelkan respons biner non-independen (atau berkerumun) pada atribut masing-masing cluster sebagai fungsi kovariat
- GEE memungkinkan Anda memodelkan respons rata-rata populasi dari data biner yang tidak independen sebagai fungsi kovariat
Karena Anda memiliki beberapa uji coba per peserta, data Anda tidak independen; seperti yang Anda catat dengan benar, "real di dalam satu peserta cenderung lebih mirip daripada dibandingkan dengan seluruh kelompok". Karena itu, Anda harus menggunakan GLMM atau GEE.
Masalahnya, kemudian, adalah bagaimana memilih apakah GLMM atau GEE akan lebih sesuai untuk situasi Anda. Jawaban untuk pertanyaan ini tergantung pada subjek penelitian Anda - khususnya, target kesimpulan yang ingin Anda buat. Seperti yang saya nyatakan di atas, dengan GLMM, beta-beta tersebut memberi tahu Anda tentang efek satu unit perubahan pada kovariat Anda pada peserta tertentu, dengan karakteristik masing-masing. Di sisi lain dengan GEE, beta memberi tahu Anda tentang efek satu unit perubahan dalam kovariat Anda pada rata-rata tanggapan seluruh populasi yang bersangkutan. Ini adalah perbedaan yang sulit untuk dipahami, terutama karena tidak ada perbedaan dengan model linier (dalam hal ini keduanya adalah hal yang sama).
logit ( hlmsaya) = β0+ β1X1+bsaya
logit ( p ) = ln( hal1 - hal) ,&b∼ N ( 0 , σ2b)
hal β0( β0+ bsaya)bsayaβ0β1halsayalogitβ1--yang sama untuk setiap siswa (yaitu, tidak ada kemiringan acak). Perhatikan, bagaimanapun, bahwa kemampuan dasar siswa berbeda di antara mereka - mungkin karena perbedaan dalam hal-hal seperti IQ (yaitu, ada intersepsi acak). Probabilitas rata-rata untuk kelas secara keseluruhan, bagaimanapun, mengikuti profil yang berbeda dari siswa. Hasil yang sangat berlawanan dengan intuisi adalah ini:
satu jam tambahan pengajaran dapat memiliki efek yang cukup besar pada probabilitas setiap siswa yang lulus ujian, tetapi memiliki efek yang relatif kecil pada kemungkinan proporsi total siswa yang lulus . Ini karena beberapa siswa mungkin sudah memiliki peluang besar untuk lulus sementara yang lain mungkin masih memiliki sedikit peluang.
Pertanyaan apakah Anda harus menggunakan GLMM atau GEE adalah pertanyaan fungsi mana yang ingin Anda perkirakan. Jika Anda ingin tahu tentang kemungkinan kelulusan siswa tertentu (jika, katakanlah, Anda adalah siswa, atau orang tua siswa), Anda ingin menggunakan GLMM. Di sisi lain, jika Anda ingin tahu tentang pengaruhnya terhadap populasi (jika, misalnya, Anda adalah guru , atau kepala sekolah), Anda ingin menggunakan GEE.
Untuk diskusi lain yang lebih rinci secara matematis dari bahan ini, lihat jawaban ini oleh @ Macro.