Menafsirkan tiga bentuk "model campuran"

Ada perbedaan yang membuat saya bingung dengan model campuran, dan saya bertanya-tanya apakah saya bisa mendapatkan kejelasan tentang itu. Mari kita asumsikan Anda punya model campuran data hitungan. Ada variabel yang Anda tahu Anda inginkan sebagai efek tetap (A) dan variabel lain untuk waktu (T), dikelompokkan dengan mengatakan variabel "Situs".

Seperti yang saya pahami:

glmer(counts ~ A + T, data=data, family="Poisson") adalah model efek tetap.

glmer(counts ~ (A + T | Site), data=data, family="Poisson") adalah model efek acak.

Pertanyaan saya adalah kapan Anda memiliki sesuatu seperti:

glmer(counts ~ A + T + (T | Site), data=data, family="Poisson")apa itu T? Apakah ini efek acak? Efek tetap? Apa yang sebenarnya dicapai dengan menempatkan T di kedua tempat?

Kapan seharusnya sesuatu hanya muncul di bagian efek acak dari formula model?

r mixed-model lme4-nlme

— Fomite
sumber

Jawaban:

Ini dapat menjadi lebih jelas dengan menuliskan formula model untuk masing-masing dari ketiga model ini. Biarkan $Y_{ij}$ menjadi pengamatan untuk orang $i$ di situs $j$ di setiap model dan tentukan $A_{ij}, T_{ij}$ analog untuk merujuk ke variabel dalam model Anda.

glmer(counts ~ A + T, data=data, family="Poisson") adalah modelnya

\log (E (Y_{i j})) = β_{0} + β_{1} A_{i j} + β_{2} T_{i j}

$\log \big( E(Y_{ij}) \big) = \beta_0 + \beta_1 A_{ij} + \beta_2 T_{ij}$

yang hanya merupakan model regresi poisson biasa.

glmer(counts ~ (A + T|Site), data=data, family="Poisson") adalah modelnya

\log (E (Y_{i j})) = α_{0} + η_{j 0} + η_{j 1} A_{i j} + η_{j 2} T_{i j}

$\log \big( E(Y_{ij}) \big) = \alpha_0 + \eta_{j0} + \eta_{j1} A_{ij} + \eta_{j2} T_{ij}$

di mana adalah efek acak yang dibagi oleh setiap pengamatan yang dilakukan oleh individu dari situs . Efek acak ini diizinkan untuk dikorelasikan secara bebas (yaitu, tidak ada batasan dibuat pada ) dalam model yang Anda tentukan. Untuk memaksakan kemandirian, Anda harus menempatkan mereka di dalam kurung yang berbeda, misalnyaakan melakukannya. Model ini mengasumsikan $\eta_{j} = (\eta_{j0}, \eta_{j1}, \eta_{j2}) \sim N(0, \Sigma)$ $j$ $\Sigma$ (A-1|Site) + (T-1|Site) + (1|Site) adalah untuk semua situs tetapi setiap situs memiliki offset acak ( ) dan memiliki hubungan linier acak dengan kedua . $\log \big( E(Y_{ij}) \big)$ $\alpha_0$ $\eta_{j0}$ $A_{ij}, T_{ij}$

glmer(counts ~ A + T + (T|Site), data=data, family="Poisson") adalah modelnya

\log (E (Y_{i j})) = (θ_{0} + γ_{j 0}) + θ_{1} A_{i j} + (θ_{2} + γ_{j 1}) T_{i j}

$\log \big( E(Y_{ij}) \big) = (\theta_0 + \gamma_{j0}) + \theta_1 A_{ij} + (\theta_2 + \gamma_{j1}) T_{ij}$

Jadi sekarang memiliki beberapa hubungan "rata-rata" dengan , yang diberikan oleh efek tetap tetapi hubungan itu berbeda untuk setiap situs dan perbedaan tersebut ditangkap oleh efek acak, $\log \big( E(Y_{ij}) \big)$ $A_{ij}, T_{ij}$ $\theta_0, \theta_1, \theta_2$ $\gamma_{j0}, \gamma_{j1}, \gamma_{j2}$ . Yaitu, garis dasar digeser secara acak dan kemiringan dari dua variabel digeser secara acak dan semua orang dari situs yang sama berbagi perubahan acak yang sama.

apa itu T? Apakah ini efek acak? Efek tetap? Apa yang sebenarnya dicapai dengan menempatkan T di kedua tempat?

adalah salah satu kovariat Anda. Ini bukan efek acak -adalah efek acak. Ada efek tetap dari yang berbeda tergantung pada efek acak yang diberikan oleh- pada model di atas. Apa yang dicapai dengan memasukkan efek acak ini adalah untuk memungkinkan heterogenitas antara situs dalam hubungan antara dan . $T$ Site $T$ Site $\gamma_{j1}$ $T$ $\log \big( E(Y_{ij}) \big)$

Kapan seharusnya sesuatu hanya muncul di bagian efek acak dari rumus model?

Ini adalah masalah apa yang masuk akal dalam konteks aplikasi.

Mengenai intersep - Anda harus menyimpan intersep tetap di sana karena banyak alasan (lihat, misalnya, di sini ); re: intercept acak, , ini terutama bertindak untuk menginduksi korelasi antara pengamatan yang dilakukan di situs yang sama. Jika tidak ada korelasi yang ada, maka efek acak harus dikecualikan. $\gamma_{j0}$

Mengenai lereng acak, model dengan hanya lereng acak dan tanpa lereng tetap mencerminkan keyakinan bahwa, untuk setiap situs, ada beberapa hubungan antara dan kovariat Anda untuk setiap situs, tetapi jika Anda menyamakannya efek di semua situs, maka tidak ada hubungan. Misalnya, jika Anda memiliki kemiringan acak di $\log \big( E(Y_{ij}) \big)$ $T$ tetapi tidak memiliki kemiringan tetap, ini akan seperti mengatakan bahwa waktu, rata-rata, tidak memiliki efek (misalnya tidak ada tren sekuler dalam data) tetapi masing Site- masing mengarah ke arah acak dari waktu ke waktu, yang bisa masuk akal. Sekali lagi, itu tergantung pada aplikasinya.

Perhatikan bahwa Anda dapat menyesuaikan model dengan dan tanpa efek acak untuk melihat apakah ini terjadi - Anda seharusnya tidak melihat efek dalam model tetap tetapi efek acak yang signifikan dalam model berikutnya. Saya harus mengingatkan Anda bahwa keputusan seperti ini seringkali lebih baik dibuat berdasarkan pada pemahaman tentang aplikasi daripada melalui pemilihan model.

— Makro
sumber

(+1): menuliskan formula model untuk setiap model memang cara terbaik untuk membuat R-notasi lebih transparan; kerja bagus!

— ocram

@ Macro Satu pertanyaan pada persamaan di atas (terima kasih untuk mereka btw) - apakah mereka juga memiliki istilah kesalahan yang biasa di dalamnya? Jika demikian, apa itu subskrip istilah itu?

— Fomite

Hai - satu cara untuk menulis GLM adalah sebagai model untuk

(atau versi 'ditautkan') seperti yang saya lakukan di sini. Tidak ada istilah kesalahan untuk nilai yang diharapkan, jika model ditentukan dengan benar. Untuk menjawab pertanyaan Anda, di GLMS kita menentukan distribusi dari

E (Y_{i j} | X)

$E(Y_{ij}|X)$

. Keacakan "sisa" dalam model linier dimanifestasikan oleh istilah kesalahan yang terdistribusi normal. Tetapi, dalam GLM non-linear (mis. Poisson, logistik) ada keacakan "dibangun" karena mengetahui tingkat poisson atau probabilitas keberhasilan uji coba bernoulli tidak memungkinkan Anda untuk memprediksi realisasi tanpa kesalahan. Semoga ini membantu.

Y_{i j} | X

$Y_{ij}|X$

— Makro

Anda harus mencatat bahwa Ttidak satu pun dari model Anda yang merupakan istilah efek acak, tetapi efek tetap. Efek acak hanya efek yang muncul setelah |dalam lmerformula!

Diskusi yang lebih menyeluruh tentang spesifikasi ini yang dapat Anda temukan dalam pertanyaan faq yang lebih singkat ini .

Dari pertanyaan ini, model Anda harus memberikan yang berikut (untuk efek tetap Anda T):

Kemiringan global
Istilah lereng acak yang menetapkan penyimpangan dari keseluruhan lereng untuk setiap tingkat Site
Korelasi antara lereng acak.

Dan seperti yang dikatakan oleh @ mark999 ini memang merupakan spesifikasi umum. Dalam desain tindakan berulang, Anda umumnya ingin memiliki kemiringan dan korelasi acak untuk semua faktor ukuran berulang (dalam-mata pelajaran).

Lihat makalah berikut untuk beberapa contoh (yang saya cenderung selalu kutip di sini):

Judd, CM, Westfall, J., & Kenny, DA (2012). Memperlakukan rangsangan sebagai faktor acak dalam psikologi sosial: Sebuah solusi baru dan komprehensif untuk masalah yang meluas tetapi sebagian besar diabaikan. Jurnal Kepribadian dan Psikologi Sosial , 103 (1), 54-69. doi: 10.1037 / a0028347

— Henrik
sumber

Referensi serupa dari ekologi: Schielzeth, Holger, dan Wolfgang Forstmeier. 2009. "Kesimpulan Di Luar Dukungan: Perkiraan Terlalu Percaya Diri dalam Model Campuran." Ekologi Perilaku 20 (2) (1 Maret): 416-420. doi: 10.1093 / beheco / arn145. beheco.oxfordjournals.org/content/20/2/416 .

— Ben Bolker

Sesuatu seharusnya hanya muncul di bagian acak ketika Anda tidak terlalu tertarik dengan parameternya, tetapi harus memasukkannya untuk menghindari data dependen. Misalnya, jika anak-anak bersarang di kelas, Anda biasanya ingin anak-anak hanya sebagai efek acak.

— Peter Flom - Pasang kembali Monica
sumber

Mungkin saya salah mengerti Anda, tetapi saya akan berpikir bahwa memiliki efek tetap dan acak untuk variabel yang sama lebih umum daripada variabel yang hanya memiliki efek acak. Memiliki efek tetap dan acak untuk variabel yang sama tidak jarang dalam buku Pinheiro dan Bates.

— mark999

@MichaelChernick seperti yang saya mengerti, jika Anda memiliki efek tetap dan efek acak untuk variabel yang sama, maka efek tetap adalah efek keseluruhan dalam populasi, sedangkan efek acak memungkinkan efek berbeda dari variabel untuk setiap subjek. Ada beberapa contoh di Pinheiro & Bates.

— mark999

@PeterFlom, ulang: "jika anak-anak bersarang di kelas, Anda biasanya ingin anak-anak hanya sebagai efek acak." Saya pikir maksud Anda kelas adalah efek acak. Kecuali ada data yang bersarang lebih lanjut (misalnya pengukuran berulang pada anak-anak) maka efek acak tingkat anak tidak diidentifikasi.

— Makro

@ Macro Ya, itulah yang saya maksud, maaf. Terminologi menjadi sangat membingungkan! Mungkin itulah sebabnya Gelman menghindari istilah 'tetap' dan 'acak'

— Peter Flom - Reinstate Monica

@Michael, saya setuju dengan Anda. Dalam jenis model hirarkis ini, efek acak didefinisikan oleh variabel pengelompokan (sebagai lawan dari model multivariat lainnya seperti kumpulan data yang diindeks spasial, di mana variabel 'pengelompokan' terus bervariasi). Dalam pertanyaan OP, Siteakan disebut sebagai efek acak, bukan Tatau Aatau apa pun. Kalau dipikir Site-pikir seperti itu, efeknya jelas tidak bisa diperbaiki maupun acak, karena keduanya tidak akan saling diidentifikasi. Anda dapat memiliki koefisien tetap dan acak untuk variabel, tetapi itu pertanyaan yang berbeda.

— Makro