Urutan variabel dan variabilitas yang diperhitungkan dalam pemodelan efek campuran linier


9

Misalkan, dalam penelitian terhadap 15 subjek, variabel respons (res) dimodelkan dengan dua variabel penjelas, satu (level) dikategorikan dengan 5 level dan lainnya (waktu respons: RT) kontinu. Dengan lmer dalam paket lme4 dari R, saya punya:

fm1 <- lmer(res ~ level * RT + (level-1 | subject), data=mydata)
anova(fm1)

             Df  Sum Sq Mean Sq  F value
level        4  3974.9   993.7   9.2181
RT           1  1953.5  1953.5  18.1209
level:RT     4  5191.4  1297.9  12.0393

Jika saya mengubah urutan kedua variabel, saya mendapatkan hasil yang sedikit berbeda untuk efek utama:

fm2 <- lmer(res ~ RT * level + (level-1 | subject), data=mydata)
anova(fm2)

             Df  Sum Sq Mean Sq  F value
RT           1  1671.8  1671.8  15.5077
level        4  4256.7  1064.2   9.8715
RT:level     4  5191.4  1297.9  12.0393

Apakah perbedaan seperti itu datang dari pendekatan sekuensial (bukan marginal) dalam lme4 dalam akuntansi untuk variabilitas data? Dalam hal ini, perubahan urutan variabel tidak menyebabkan perbedaan besar, tetapi sebelumnya saya telah melihat perbedaan dramatis. Apa perbedaan yang sangat berarti? Apakah ini berarti bahwa model tersebut perlu penyetelan lebih lanjut hingga perbedaan besar hilang?

Pertanyaan kedua saya adalah, jika saya ingin tahu variabel mana di antara keduanya (RT dan level) yang menyumbang lebih banyak variabilitas data, apa yang akan menjadi pendekatan yang masuk akal? Berdasarkan besarnya relatif Sum Sq (atau Mean Sq) dari dua variabel? Adakah metode pengujian statistik untuk membandingkan variabilitas antar variabel penjelas?


Jika Anda tidak dapat memposting data, paling tidak Anda dapat memasang output model daripada hanya ANOVA?
John

Jawaban:


5

Saya akan mencoba menjawab pertanyaan Anda satu per satu:

Apakah perbedaan seperti itu datang dari pendekatan sekuensial (bukan marginal) dalam lme4 dalam akuntansi untuk variabilitas data?

Benar. Seperti yang Anda lihat, hanya untuk interaksi hasilnya sama. Interaksi dimasukkan terakhir ke dalam model dalam kedua kasus, sehingga hasil untuk istilah itu sama. Namun, jika Anda memasukkan "level" dulu dan kemudian "RT", hasil untuk "RT" memberi tahu Anda apakah "RT" signifikan setelah "level" sudah ada dalam model (dan sebaliknya). Hasil ini tergantung pesanan.

Apa perbedaan yang sangat berarti?

Misalkan kedua variabel itu sendiri sangat terkait dengan variabel respons, tetapi keduanya juga sangat berkorelasi. Dalam hal itu, mungkin tidak ada banyak variabilitas dalam variabel respon yang tersisa untuk diperhitungkan oleh variabel yang dimasukkan kedua ke dalam model. Oleh karena itu, Anda akan cenderung melihat perbedaan yang lebih dramatis ketika variabel penjelas berkorelasi.

Apakah ini berarti bahwa model tersebut perlu penyetelan lebih lanjut hingga perbedaan besar hilang?

Saya tidak yakin apa yang Anda maksud dengan "menyetel". Fenomena yang Anda amati bukanlah masalah semata, meskipun hal itu mempersulit interpretasi hasil (lihat di bawah).

Mungkin salah satu cara "menyetel" adalah ini. Jika variabel penjelas sangat berkorelasi, maka mereka mungkin pada dasarnya mengukur hal yang sama. Dalam hal ini, seseorang dapat "menyetel" model dengan menghapus salah satu variabel atau menggabungkannya menjadi satu variabel.

Pertanyaan kedua saya adalah, jika saya ingin tahu variabel mana di antara keduanya (RT dan level) yang menyumbang lebih banyak variabilitas data, apa yang akan menjadi pendekatan yang masuk akal? Berdasarkan besarnya relatif Sum Sq (atau Mean Sq) dari dua variabel? Adakah metode pengujian statistik untuk membandingkan variabilitas antar variabel penjelas?

Ketika variabel penjelas berkorelasi, maka agak sulit untuk menentukan kepentingan relatifnya. Masalah ini muncul cukup sering dalam konteks regresi berganda dan puluhan artikel telah ditulis tentang topik ini dan banyak metode untuk mencapai tujuan ini telah disarankan. Tentu saja tidak ada konsensus tentang cara yang paling tepat dan beberapa orang bahkan mungkin menyarankan bahwa tidak ada cara yang memadai untuk melakukan itu.

Jumlah kuadrat tidak akan membantu Anda, karena mereka tidak didasarkan pada jumlah derajat kebebasan yang sama. Kuadrat rata-rata pada dasarnya benar untuk itu, tetapi jika Anda menggunakan kuadrat rata-rata, maka ini tidak lain adalah menggunakan nilai-F yang sesuai (atau nilai-p) untuk menentukan kepentingan relatif. Saya pikir kebanyakan orang tidak akan menganggap itu sebagai cara yang tepat untuk menentukan kepentingan relatif.

Sayangnya, saya tidak punya solusi yang mudah. Sebagai gantinya, saya dapat menyarankan situs web kepada Anda, dari pembuat relaimpopaket. Saya tidak berpikir paket ini akan membantu Anda saat memasang model efek campuran, tetapi ada banyak referensi ke makalah tentang masalah yang Anda hadapi.

http://prof.beuth-hochschule.de/groemping/relaimpo/

Anda mungkin juga ingin melihat ke dalam AICcmodavgpaket:

http://cran.r-project.org/web/packages/AICcmodavg/index.html


Sangat menghargai klarifikasi dan bantuannya! Mengenai kepentingan relatif dari masing-masing variabel dalam model efek campuran, apakah masuk akal untuk mempertimbangkan perbedaan AIC / BIC yang disediakan oleh lme ()? Sebagai contoh, dengan data saya, tentukan tiga model: res ~ RT, res ~ level, level res ~ RT *. Kemudian gunakan anova () untuk menilai kepentingan relatif berdasarkan AIC / BIC mereka?
bluepole

Nilai AIC / BIC sering digunakan untuk pemilihan model. Jika itu akan menjadi tujuan Anda, maka ya, ini adalah satu pendekatan. Jika tujuan Anda adalah menentukan kepentingan relatif variabel, maka Anda dapat menggunakan bobot Akaike. Presentasi yang sangat bagus dan jelas tentang ide itu dapat ditemukan di sini: bit.ly/pDQ7eq
Wolfgang

Terima kasih banyak atas semua bantuannya. Saya sangat menghargainya ...
bluepole
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.