Perbedaan antara model linier umum & model campuran linier umum


34

Saya bertanya-tanya apa perbedaan antara GLM campuran dan tidak dicampur. Misalnya, di SPSS menu tarik turun memungkinkan pengguna untuk masuk:

  • analyze-> generalized linear models-> generalized linear models &
  • analyze-> mixed models-> generalized linear

Apakah mereka menangani nilai-nilai yang hilang secara berbeda?

Variabel dependen saya adalah biner dan saya memiliki beberapa variabel independen kategori dan kontinu.


Jawaban:


62

Munculnya model linier umum telah memungkinkan kami untuk membangun model tipe regresi data ketika distribusi variabel respon tidak normal - misalnya, ketika DV Anda adalah biner. (Jika Anda ingin tahu lebih banyak tentang GLiMs, saya menulis jawaban yang cukup luas di sini , yang mungkin berguna meskipun konteksnya berbeda.) Namun, GLiM, misalnya model regresi logistik, mengasumsikan bahwa data Anda independen . Misalnya, bayangkan sebuah penelitian yang meneliti apakah seorang anak menderita asma. Setiap anak berkontribusi satudata menunjukkan penelitian - mereka memiliki asma atau tidak. Namun, terkadang data tidak independen. Pertimbangkan penelitian lain yang meneliti apakah seorang anak menderita flu di berbagai titik selama tahun sekolah. Dalam hal ini, setiap anak berkontribusi banyak poin data. Pada suatu waktu seorang anak mungkin pilek, kemudian mereka mungkin tidak, dan masih kemudian mereka mungkin pilek lagi. Data ini tidak independen karena mereka berasal dari anak yang sama. Untuk menganalisis data ini dengan tepat, kita perlu memperhitungkan ketidak-independenan ini. Ada dua cara: Salah satu caranya adalah dengan menggunakan persamaan estimasi umum (yang tidak Anda sebutkan, jadi kami akan lewati). Cara lain adalah dengan menggunakan model campuran linier umum. GLiMM dapat menjelaskan non-kemerdekaan dengan menambahkan efek acak (seperti catatan @MichaelChernick). Dengan demikian, jawabannya adalah bahwa pilihan kedua Anda adalah untuk data berulang yang tidak normal (atau tidak independen). (Saya harus menyebutkan, sesuai dengan komentar @ Makro ini, yang umum- terwujud linear model campuran Namun termasuk model linear sebagai kasus khusus dan dengan demikian dapat digunakan dengan data terdistribusi normal., Dalam penggunaan khas berkonotasi jangka data non-normal.)

Pembaruan: (OP telah bertanya tentang GEE juga, jadi saya akan menulis sedikit tentang bagaimana ketiganya berhubungan satu sama lain.)

Berikut ini gambaran dasar:

  • GLiM yang khas (saya akan menggunakan regresi logistik sebagai kasus prototipikal) memungkinkan Anda memodelkan respons biner independen sebagai fungsi kovariat
  • GLMM memungkinkan Anda memodelkan respons biner non-independen (atau berkerumun) pada atribut masing-masing cluster sebagai fungsi kovariat
  • GEE memungkinkan Anda memodelkan respons rata-rata populasi dari data biner yang tidak independen sebagai fungsi kovariat

Karena Anda memiliki beberapa uji coba per peserta, data Anda tidak independen; seperti yang Anda catat dengan benar, "real di dalam satu peserta cenderung lebih mirip daripada dibandingkan dengan seluruh kelompok". Karena itu, Anda harus menggunakan GLMM atau GEE.

Masalahnya, kemudian, adalah bagaimana memilih apakah GLMM atau GEE akan lebih sesuai untuk situasi Anda. Jawaban untuk pertanyaan ini tergantung pada subjek penelitian Anda - khususnya, target kesimpulan yang ingin Anda buat. Seperti yang saya nyatakan di atas, dengan GLMM, beta-beta tersebut memberi tahu Anda tentang efek satu unit perubahan pada kovariat Anda pada peserta tertentu, dengan karakteristik masing-masing. Di sisi lain dengan GEE, beta memberi tahu Anda tentang efek satu unit perubahan dalam kovariat Anda pada rata-rata tanggapan seluruh populasi yang bersangkutan. Ini adalah perbedaan yang sulit untuk dipahami, terutama karena tidak ada perbedaan dengan model linier (dalam hal ini keduanya adalah hal yang sama).

logit(halsaya)=β0+β1X1+bsaya
logit(hal)=dalam(hal1-hal),     &      bN(0,σb2)
hal β0(β0+bsaya)bsayaβ0β1halsayalogitmasukkan deskripsi gambar di sini
β1--yang sama untuk setiap siswa (yaitu, tidak ada kemiringan acak). Perhatikan, bagaimanapun, bahwa kemampuan dasar siswa berbeda di antara mereka - mungkin karena perbedaan dalam hal-hal seperti IQ (yaitu, ada intersepsi acak). Probabilitas rata-rata untuk kelas secara keseluruhan, bagaimanapun, mengikuti profil yang berbeda dari siswa. Hasil yang sangat berlawanan dengan intuisi adalah ini: satu jam tambahan pengajaran dapat memiliki efek yang cukup besar pada probabilitas setiap siswa yang lulus ujian, tetapi memiliki efek yang relatif kecil pada kemungkinan proporsi total siswa yang lulus . Ini karena beberapa siswa mungkin sudah memiliki peluang besar untuk lulus sementara yang lain mungkin masih memiliki sedikit peluang.

Pertanyaan apakah Anda harus menggunakan GLMM atau GEE adalah pertanyaan fungsi mana yang ingin Anda perkirakan. Jika Anda ingin tahu tentang kemungkinan kelulusan siswa tertentu (jika, katakanlah, Anda adalah siswa, atau orang tua siswa), Anda ingin menggunakan GLMM. Di sisi lain, jika Anda ingin tahu tentang pengaruhnya terhadap populasi (jika, misalnya, Anda adalah guru , atau kepala sekolah), Anda ingin menggunakan GEE.

Untuk diskusi lain yang lebih rinci secara matematis dari bahan ini, lihat jawaban ini oleh @ Macro.


2
Ini adalah jawaban yang baik tetapi saya pikir itu, terutama kalimat terakhir, hampir menunjukkan bahwa Anda hanya menggunakan GLM atau GLMM untuk data tidak normal yang mungkin tidak dimaksudkan, karena model linear (campuran) Gaussian biasa juga termasuk dalam kategori GL (M) M.
Makro

@ Macro, Anda benar, saya selalu lupa itu. Saya mengedit jawaban untuk mengklarifikasi ini. Beri tahu saya jika menurut Anda itu perlu lebih.
gung - Reinstate Monica

Saya juga memeriksa persamaan estimasi umum. Benarkah seperti halnya dengan GLiM, GEE berasumsi bahwa data saya independen? Saya memiliki beberapa uji coba per peserta. Uji coba dalam satu peserta cenderung lebih mirip daripada dibandingkan dengan seluruh kelompok.
user9203

@ung, Meskipun GEE dapat menghasilkan koefisien "populasi-rata-rata", jika saya ingin memperkirakan Efek Perawatan Rata - rata (ATE) pada skala probabilitas di seluruh populasi aktual, untuk regresi biner minat, tidakkah saya perlu mengambil pendekatan subjek-spesifik? Cara untuk menghitung ATE, setahu saya, adalah memperkirakan probabilitas yang diperkirakan untuk setiap orang dengan dan tanpa pengobatan dan kemudian meratakan perbedaan-perbedaan tersebut. Bukankah ini memerlukan metode regresi yang dapat menghasilkan probabilitas yang diprediksi untuk setiap orang (meskipun faktanya mereka kemudian dirata-rata)?
Yakkanomica

1
@Yakkanomica, jika itu yang Anda inginkan, tentu saja.
gung - Reinstate Monica

6

Kuncinya adalah pengenalan efek acak. Tautan Gung menyebutkannya. Tapi saya pikir itu seharusnya disebutkan secara langsung. Itulah perbedaan utama.


+1, Anda benar. Seharusnya aku lebih jelas tentang itu. Saya mengedit jawaban saya untuk memasukkan poin ini.
gung - Reinstate Monica

Setiap kali saya menambahkan efek acak, seperti intersep acak ke model, saya mendapatkan pesan kesalahan. Saya pikir saya tidak punya cukup data poin untuk menambahkan efek acak. Mungkinkah itu masalahnya? pesan kesalahan: glmm: Matriks Goni akhir tidak pasti positif meskipun semua kriteria konvergensi terpenuhi. Prosedur berlanjut meskipun ada peringatan ini. Hasil selanjutnya yang dihasilkan didasarkan pada iterasi terakhir. Validitas model fit tidak pasti.
user9203

3

Saya sarankan Anda juga memeriksa jawaban dari pertanyaan yang saya tanyakan beberapa waktu lalu:

General Linear Model vs. Generalized Linear Model (dengan fungsi tautan identitas?)


5
Saya tidak berpikir itu benar-benar menjawab pertanyaan, yaitu tentang kemampuan SPSS untuk menjalankan model GLM dan efek campuran, dan bagaimana menangani nilai-nilai yang hilang. Apakah ini dimaksudkan sebagai komentar? Kalau tidak, mohon klarifikasi.
chl

Maaf, postingan pembuka sepertinya memiliki dua "pertanyaan". 1. Saya bertanya-tanya apa .... dan 2. Apakah mereka menangani nilai-nilai yang hilang secara berbeda? Saya mencoba membantu dengan pertanyaan pertama.
Behacad

1
Cukup adil. Tanpa penjelasan lebih lanjut, saya masih berpikir ini akan lebih cocok sebagai komentar kepada OP.
chl
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.