Kapan harus menggunakan model efek campuran?


11

Model Efek Campuran Linier adalah Perpanjangan model Regresi Linier untuk data yang dikumpulkan dan dirangkum dalam kelompok. Keuntungan utama adalah koefisien dapat bervariasi sehubungan dengan satu atau lebih variabel grup.

Namun, saya kesulitan dengan kapan harus menggunakan model efek campuran? Saya akan menguraikan pertanyaan saya dengan menggunakan contoh mainan dengan kasus ekstrim.

Mari kita asumsikan kita ingin memodelkan tinggi dan berat untuk hewan dan kita menggunakan spesies sebagai variabel pengelompokan.

  • Jika kelompok / spesies yang berbeda benar-benar berbeda. Katakan seekor anjing dan gajah. Saya pikir tidak ada gunanya menggunakan model efek campuran, kita harus membangun model untuk setiap kelompok.

  • Jika kelompok / spesies yang berbeda benar-benar mirip. Katakanlah seekor anjing betina dan seekor anjing jantan. Saya pikir kita mungkin ingin menggunakan gender sebagai variabel kategori dalam model.

Jadi, saya berasumsi kita harus menggunakan model efek campuran dalam kasus tengah? Katakanlah, kelompoknya adalah kucing, anjing, kelinci, mereka adalah hewan berukuran serupa tetapi berbeda.

Apakah ada argumen formal untuk menyarankan kapan harus menggunakan model efek campuran, yaitu, cara menggambar garis di antara

  1. Membangun model untuk setiap kelompok
  2. Model efek campuran
  3. Gunakan grup sebagai variabel kategori dalam regresi

Upaya saya: Metode 1 adalah "model paling rumit" / tingkat kebebasan yang lebih rendah dan metode 3 adalah "model paling sederhana" / tingkat kebebasan yang lebih banyak. Dan model efek campuran di tengah. Kami dapat mempertimbangkan berapa banyak data dan seberapa rumit data yang kami miliki untuk memilih model yang tepat menurut Bais Variance Trade Off.


5
Ini dibahas dalam banyak utas di forum ini. Sudahkah Anda mencari beberapa? Perhatikan bahwa opsi Anda dengan "variabel kategori" adalah apa yang disebut "efek tetap" (variabel pengelompokan), sedangkan yang Anda maksud dengan "menggunakan model campuran" menggunakan "efek acak". Jadi yang Anda tanyakan adalah kapan menggunakan fixed dan kapan menggunakan random effect. Ada berbagai pendapat tentang pertanyaan ini, dan Anda dapat menemukan banyak diskusi di sini di CV. Saya mungkin memposting beberapa tautan nanti.
amoeba

Juga, perbedaan antara "membangun model yang terpisah" dan "menggunakan variabel kategori" tidak jelas bagi saya. activity ~ condition + species + condition*species- ini digunakan speciessebagai variabel kategori, tetapi ini sepenuhnya setara dengan regresi terpisah activity ~ conditionuntuk setiap spesies secara terpisah.
amoeba

2
Periksa utas ini: stats.stackexchange.com/questions/120964/... , itu tidak menjawab pertanyaan Anda secara langsung, tetapi memberikan diskusi yang terkait erat dengan pertanyaan Anda.
Tim

3
Nah, sudahkah Anda membaca stats.stackexchange.com/a/151800/28666 , sebagai permulaan?
amoeba

2
"Jika kelompok / spesies yang berbeda benar-benar berbeda. Katakanlah seekor anjing dan gajah. Saya pikir tidak ada gunanya menggunakan model efek campuran, kita harus membuat model untuk setiap kelompok." Ini benar-benar hanya benar jika Anda mengharapkan efek dari semua fitur lain berbeda menurut spesies. Ini, dalam kebanyakan situasi, terlalu liberal asumsi.
Matthew Drury

Jawaban:


8

Saya khawatir saya mungkin memiliki jawaban yang bernuansa dan mungkin tidak memuaskan bahwa itu adalah pilihan subjektif oleh peneliti atau analis data. Seperti disebutkan di tempat lain di utas ini, tidak cukup hanya mengatakan bahwa data memiliki "struktur bersarang." Agar adil, bagaimanapun, ini adalah berapa banyak buku yang menggambarkan kapan harus menggunakan model bertingkat. Sebagai contoh, saya baru saja menarik buku Joop Hox Multilevel Analysis dari rak buku saya, yang memberikan definisi ini:

Masalah bertingkat menyangkut populasi dengan struktur hirarkis.

Bahkan dalam buku teks yang cukup bagus, definisi awal tampaknya melingkar. Saya pikir ini sebagian karena subjektivitas menentukan kapan harus menggunakan model seperti apa (termasuk model bertingkat).

Buku lain, West, Welch, & Galecki, Mixed Model Linear mengatakan model ini untuk:

variabel hasil di mana residu terdistribusi normal tetapi mungkin tidak independen atau memiliki varian konstan. Desain studi yang mengarah ke set data yang dapat dianalisis dengan tepat menggunakan LMM meliputi (1) studi dengan data cluster, seperti siswa di ruang kelas, atau desain eksperimental dengan blok acak, seperti kumpulan bahan baku untuk proses industri, dan (2) studi longitudinal atau tindakan berulang, di mana subjek diukur berulang kali dari waktu ke waktu atau dalam kondisi yang berbeda.

Model Multilevel dari Finch, Bolin, & Kelley di R juga berbicara tentang melanggar asumsi awal dan residu yang berkorelasi:

Yang sangat penting dalam konteks pemodelan bertingkat adalah asumsi [dalam regresi standar] dari istilah kesalahan yang didistribusikan secara independen untuk pengamatan individu dalam sampel. Asumsi ini pada dasarnya berarti bahwa tidak ada hubungan di antara individu dalam sampel untuk variabel dependen setelah variabel independen dalam analisis diperhitungkan.

Saya percaya bahwa model bertingkat masuk akal ketika ada alasan untuk percaya bahwa pengamatan tidak harus independen satu sama lain. Apa pun "gugus" akun untuk non-kemerdekaan ini dapat dimodelkan.

Contoh nyata adalah anak-anak di ruang kelas - mereka semua berinteraksi satu sama lain, yang mungkin menyebabkan nilai tes mereka menjadi tidak independen. Bagaimana jika satu kelas memiliki seseorang yang mengajukan pertanyaan yang mengarah ke materi yang tercakup dalam kelas yang tidak tercakup dalam kelas lain? Bagaimana jika guru lebih terjaga untuk beberapa kelas daripada yang lain? Dalam hal ini, akan ada beberapa data yang tidak independen; dalam kata-kata bertingkat, kita bisa mengharapkan beberapa varians dalam variabel dependen disebabkan oleh cluster (yaitu, kelas).

Contoh Anda tentang seekor anjing versus seekor gajah tergantung pada variabel minat yang independen dan tergantung, saya kira. Sebagai contoh, katakanlah kita bertanya apakah ada efek kafein pada tingkat aktivitas. Hewan dari seluruh kebun binatang secara acak ditugaskan untuk mendapatkan minuman berkafein atau minuman kontrol.

Jika kita seorang peneliti yang tertarik pada kafein, kita dapat menentukan model bertingkat, karena kita benar-benar peduli tentang efek kafein. Model ini akan ditentukan sebagai:

activity ~ condition + (1+condition|species)

Ini sangat membantu jika ada sejumlah besar spesies yang sedang kami uji hipotesis ini. Namun, seorang peneliti mungkin tertarik pada efek spesifik spesies dari kafein. Dalam hal ini, mereka dapat menentukan spesies sebagai efek tetap:

activity ~ condition + species + condition*species

Ini jelas merupakan masalah jika, katakanlah, 30 spesies, menciptakan desain 2 x 30 yang berat. Namun, Anda bisa menjadi sangat kreatif dengan bagaimana seseorang memodelkan hubungan ini.

Sebagai contoh, beberapa peneliti berpendapat untuk penggunaan pemodelan multilevel yang lebih luas. Gelman, Hill, & Yajima (2012) berpendapat bahwa pemodelan multilevel dapat digunakan sebagai koreksi untuk beberapa perbandingan — bahkan dalam penelitian eksperimental di mana struktur data tidak jelas bersifat hierarkis:

Masalah yang lebih sulit muncul ketika memodelkan beberapa perbandingan yang memiliki lebih banyak struktur. Sebagai contoh, misalkan kita memiliki lima ukuran hasil, tiga jenis perawatan, dan subkelompok yang diklasifikasikan oleh dua jenis kelamin dan empat kelompok ras. Kami tidak ingin memodelkan struktur 2 × 3 × 4 × 5 ini sebagai 120 grup yang dapat ditukar. Bahkan dalam situasi yang lebih kompleks ini, kami pikir pemodelan multilevel harus dan pada akhirnya akan menggantikan prosedur perbandingan multipel klasik.

Masalah dapat dimodelkan dengan berbagai cara, dan dalam kasus yang ambigu, beberapa pendekatan mungkin tampak menarik. Saya pikir tugas kita adalah memilih pendekatan yang masuk akal dan berdasarkan informasi dan melakukannya secara transparan.


5

Anda tentu saja dapat membangun model untuk setiap kelompok yang berbeda, tidak ada yang salah dengan itu. Namun, Anda memerlukan ukuran sampel yang lebih besar dan perlu mengelola beberapa model.

Dengan menggunakan model campuran, Anda mengumpulkan (dan berbagi) data bersama dan karenanya membutuhkan ukuran sampel yang lebih kecil.

Dengan demikian, kami berbagi kekuatan statistik. Idenya di sini adalah bahwa sesuatu yang dapat kita simpulkan dengan baik dalam satu kelompok data dapat membantu kita dengan sesuatu yang tidak dapat kita simpulkan dengan baik pada kelompok lainnya.

Model campuran juga mencegah kelompok sampel berlebih dari inferensi dominan yang tidak adil.

Maksud saya adalah jika Anda ingin memodelkan struktur hierarki latern yang mendasarinya, Anda harus menambahkan efek acak ke model Anda. Kalau tidak, jika Anda tidak peduli dengan intrepretasi model Anda, Anda tidak menggunakannya.

https://www.dropbox.com/s/rzi2rsou6h817zz/Datascience%20Presentation.pdf?dl=0

memberikan diskusi yang relevan. Penulis membahas mengapa ia tidak ingin menjalankan model regresi yang terpisah.

masukkan deskripsi gambar di sini


4

Dalam model efek campuran, Anda menambahkan istilah acak (kesalahan) ke model Anda, sehingga Anda "mencampur" efek tetap dan acak. Jadi, pendekatan lain untuk mempertimbangkan kapan harus menggunakan model efek campuran, mungkin dengan melihat apa "efek acak" itu. Jadi, selain jawaban yang diberikan sebelumnya, saya juga menemukan perbedaan antara istilah "tetap" dan "acak" efek dari Bates (2010) instruktif, bagian 1.1 (khususnya halaman 2).

Parameter yang terkait dengan level tertentu dari kovariat kadang-kadang disebut "efek" dari level tersebut. Jika set level yang mungkin dari kovariat diperbaiki dan direproduksi, kami memodelkan kovariat menggunakan parameter efek tetap. Jika level yang kami amati mewakili sampel acak dari set semua level yang memungkinkan, kami memasukkan efek acak dalam model. Ada dua hal yang perlu diperhatikan tentang perbedaan antara parameter efek tetap dan efek acak ini. Pertama, nama-nama itu menyesatkan karena perbedaan antara tetap dan acak lebih merupakan sifat dari tingkat kovariat kategoris daripada sifat efek yang terkait dengannya.

Definisi ini sering berlaku untuk beberapa struktur hierarki seperti negara, atau ruang kelas, karena Anda selalu memiliki sampel "acak" dari negara atau ruang kelas - data belum dikumpulkan dari semua negara atau ruang kelas yang memungkinkan.

Seks, bagaimanapun, adalah tetap (atau setidaknya diperlakukan sebagai diperbaiki). Jika Anda memiliki pria atau wanita, tidak ada lagi level jenis kelamin yang tersisa (mungkin ada beberapa pengecualian gender, tetapi ini sebagian besar diabaikan).

Atau katakan tingkat pendidikan: Jika Anda bertanya apakah orang-orang berpendidikan lebih rendah, menengah atau lebih tinggi, tidak ada tingkat yang tersisa, jadi Anda belum mengambil sampel "acak" dari semua tingkat pendidikan yang mungkin (karenanya, ini adalah efek tetap).


2
+1 Mengapa memilih? Ini adalah kutipan dari ahli statistik yang dihormati tentang pemodelan efek-acak; komentar berikut ini cukup jelas dan jelas ...
usεr11852

3

Anda menggunakan model campuran ketika beberapa asumsi yang masuk akal dapat dibuat, berdasarkan desain penelitian, tentang sifat korelasi antara pengamatan dan kesimpulan yang diinginkan pada tingkat individu atau efek kondisional . Model campuran memungkinkan untuk spesifikasi efek acak, yang merupakan representasi nyaman dari struktur korelasi yang muncul secara alami dalam pengumpulan data.

Jenis model campuran yang paling umum adalah model penyadapan acak yang memperkirakan distribusi laten dari konstanta umum yang memiliki 0, mean varian terbatas, distribusi normal dalam kelompok individu yang diidentifikasi dalam dataset. Pendekatan ini menyumbang ratusan faktor pembaur yang umum terjadi pada kelompok pengamatan, atau kelompok, tetapi bervariasi di antara kelompok.

Tipe umum kedua dari model campuran adalah model lereng acak yang, mirip dengan model intersep acak, memperkirakan distribusi laten interaksi waktu-prediktor yang lagi-lagi berasal dari 0, mean varian terbatas, distribusi normal dalam studi panel, atau cluster pengamatan diukur secara prospektif atau dengan cara longitudinal.

Hasil ini kira-kira mirip dengan hasil yang diperoleh dari menggunakan kuadrat terkecil yang digeneralisasi dan algoritma EM untuk secara iteratif memperkirakan parameter model dan kovarians antara pengamatan dependen ini (atau lebih tepatnya, residu mereka). Kuadrat terkecil berbobot lebih efisien daripada kuadrat terkecil ketika kovarians antar pengamatan diketahui. Meskipun kovarians jarang diketahui, ia dapat diasumsikan mengambil struktur tertentu dan diperkirakan secara iteratif. Model intersep acak memberikan inferensi dan kemungkinan yang serupa dengan kuadrat terkecil berbobot yang memiliki struktur korelasi yang dapat ditukar di mana jikaY 1 , Y 2 c o r ( Y t , Y s ) = ρ | t - s | Y t , Y s t , scor(Y1,Y2)=ρY1,Y2berada di cluster yang sama, dan 0 sebaliknya. Model lereng acak memberikan inferensi dan kemungkinan yang serupa dengan kuadrat terkecil tertimbang yang memiliki struktur korelasi autoregresif 1 di mana jika adalah pengamatan pada sampel yang sama pada waktu yang berbeda dan 0 sebaliknya. Hasilnya tidak identik, karena pengamatan intersepsi acak memaksa dalam kelompok untuk dikaitkan secara positif yang hampir selalu merupakan asumsi yang masuk akal.cor(Yt,Ys)=ρ|ts|Yt,Yst,s

Tingkat individu atau efek kondisional dapat dikontraskan dengan tingkat populasi atau efek marginal. Efek marjinal mewakili efek dalam populasi dari intervensi atau penyaringan. Sebagai contoh, intervensi untuk meningkatkan kepatuhan dalam rehabilitasi penyalahgunaan zat dapat melihat kehadiran selama 3 bulan di panel pasien yang dirawat untuk berbagai kondisi. Durasi penggunaan dapat bervariasi antara pasien dan sangat memprediksi kepatuhan dengan lokakarya dengan peserta yang lebih lama menggunakan memiliki kecenderungan kecanduan dan penghindaran yang lebih besar. Analisis tingkat individu dapat mengungkapkan bahwa penelitian ini efektif meskipun fakta bahwa peserta dengan kecanduan yang lebih lama tidak hadir sebelum menerima intervensi dan terus tidak hadir setelah menerima intervensi.

Efek marjinal memiliki inferensi yang kurang tepat karena mengabaikan homogenitas antar klaster dalam waktu atau ruang. Mereka dapat diperkirakan dengan persamaan estimasi umum atau dengan memarginalkan model campuran.


2
+1, saya berharap saya dapat menerima 2 jawaban !. komentar saya untuk jawaban @ Mark juga berlaku untuk jawaban Anda. bahwa Anda membantu saya memahami bagaimana kita mendefinisikan "observasi dalam kelompok"
Haitao Du

2
@ hxd1011 Ini berasal dari pernyataan desain studi. Setiap desain dengan sampel bertingkat atau tindakan berulang akan memiliki data yang tidak independen. Ini bukan kasus untuk pengujian statistik. Melaporkan atau setidaknya memeriksa efek acak dapat membantu memahami sejauh mana korelasi, ICC adalah contoh dari tindakan semacam itu.
AdamO

0

Efek campuran harus digunakan ketika data memiliki struktur bersarang atau hierarkis. Ini sebenarnya melanggar asumsi independensi pengukuran, karena semua pengukuran dalam kelompok / level yang sama berkorelasi. Dalam hal

"Jika kelompok / spesies yang berbeda benar-benar mirip. Katakanlah seekor anjing betina dan seekor anjing jantan. Saya pikir kita mungkin ingin menggunakan gender sebagai variabel kategori dalam model."

jenis kelamin akan menjadi variabel faktor dan efek tetap, sedangkan variabilitas ukuran anjing dalam jenis kelamin adalah efek acak. Model saya akan menjadi

response ~ sex + (1|size), data=data

Secara intuitif, kelinci, anjing dan peti harus dimodelkan secara terpisah karena ukuran anjing dan kucing tidak berkorelasi, namun ukuran dua anjing adalah sejenis variabilitas "dalam spesies".


Saya pribadi berpendapat bahwa istilah "struktur bersarang atau hierarkis" terlalu umum, dan sulit untuk mendefinisikan batasan.
Haitao Du

Mungkin Anda benar. Saya kira kemudian LMM digunakan ketika asumsi IID dilanggar karena ada semacam pengelompokan yang ada dalam data.
marianess
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.