Apa keuntungan dari memperlakukan faktor sebagai acak dalam model campuran?

24

Saya memiliki masalah dalam merangkul manfaat pemberian label faktor model secara acak karena beberapa alasan. Bagi saya sepertinya dalam hampir semua kasus solusi optimal adalah memperlakukan semua faktor sebagai tetap.

Pertama, perbedaan fixed vs random cukup arbitrer. Penjelasan standar adalah bahwa, jika seseorang tertarik pada unit eksperimen tertentu, maka ia harus menggunakan efek tetap, dan, jika seseorang tertarik pada populasi yang diwakili oleh unit eksperimental, ia harus menggunakan efek acak. Ini tidak banyak membantu karena ini menyiratkan seseorang dapat berganti-ganti antara pandangan tetap dan acak bahkan jika data dan desain eksperimental tetap sama. Juga, definisi ini mempromosikan ilusi bahwa, jika suatu faktor diberi label sebagai acak, kesimpulan yang diambil dari model itu entah bagaimana lebih dapat diterapkan pada populasi daripada jika faktor tersebut diberi label sebagai tetap. Akhirnya, Gelman menunjukkan bahwa perbedaan tetap-acak membingungkan bahkan pada tingkat definisi karena ada empat definisi lagi tentang apa efek tetap dan acak.

Kedua, estimasi model campuran cukup rumit. Berbeda dengan model "murni diperbaiki", ada lebih dari beberapa cara untuk mendapatkan nilai-p. Prof. Bates yang menerapkan estimasi REML dalam paket lme4 dalam R bahkan menolak untuk melaporkan nilai-p sama sekali. .

Ketiga, ada masalah keruh tentang berapa banyak parameter implisit yang diperkenalkan oleh faktor acak. Contoh berikut adalah adaptasi saya tentang hal itu di Burnham & Anderson, Pemilihan Model dan Inferensi Multi-Model: Suatu Pendekatan Informasi-Teori Praktis . Dari perspektif pengorbanan bias-varians, peran efek acak dapat diilustrasikan sebagai berikut. Pertimbangkan ANOVA satu arah dengan perawatan dan efek faktor utama, yang yang diduga. Istilah kesalahan memiliki distribusi . Jika jumlah pengamatan tetap, tradeoff bias-varians akan memburuk saat naik. Misalkan kita mengatakan bahwa $K$ $K$ $K - 1$ $\mathcal N(0, \sigma^2)$ $K$ $K$ efek utama diambil dari distribusi . Model yang sesuai akan memiliki kompleksitas yang berada di antara versi tetap (overfitted) dan model underfitted yang berisi intersep saja. Jumlah parameter efektif dalam model tetap adalah $\mathcal N(0, \sigma_K)$

1 i n t e r c e p t + (K - 1) m a i n e f f e c t s + 1 σ = K + 1.

$1 \:\:\mathrm{intercept} + (K - 1) \:\:\mathrm{main\: effects} + 1 \:\:\sigma = K + 1.$

Jumlah parameter efektif dalam model acak setidaknya tiga: . Selain itu, model acak memiliki sejumlah parameter "tersembunyi" tersirat oleh pembatasan distribusi (normal dalam kasus ini) yang dikenakan pada efek utama. $\mathrm{intercept}, \sigma, \sigma_K$

Secara khusus, jika ada faktor dengan dua level, tidak masuk akal untuk menyebutnya acak, bahkan jika kita tahu pasti bahwa levelnya telah diambil secara acak dari beberapa populasi. Itu karena versi efek tetap memiliki tiga parameter, dan versi efek acak memiliki lebih dari tiga parameter. Dalam hal ini, model acak ternyata memiliki lebih banyak kompleksitas daripada versi tetap. Rupanya, beralih dari versi tetap ke acak lebih membumi untuk lebih besar $K$ . Namun, jumlah parameter "tersembunyi" dalam model acak tidak diketahui, sehingga tidak mungkin untuk membandingkan versi tetap dan acak berdasarkan kriteria informasi seperti AIC. Oleh karena itu, sementara contoh ini menerangi kontribusi efek acak (kemungkinan tradeoff varians yang lebih baik), itu juga menunjukkan bahwa sulit untuk mengatakan kapan dibenarkan untuk menandai kembali faktor dari tetap menjadi acak.

Tak satu pun dari masalah di atas hadir dalam model "murni diperbaiki". Karena itu, saya bersedia bertanya:

Adakah yang bisa memberikan contoh ketika sesuatu yang sangat buruk terjadi ketika faktor acak digunakan seolah-olah itu diperbaiki? Saya percaya harus ada beberapa studi simulasi yang membahas masalah ini secara eksplisit.
Apakah ada metode kuantitatif yang terbukti untuk memutuskan kapan masuk akal untuk beralih dari label tetap ke acak?

— James
sumber

Pertanyaan yang ditulis dengan baik, dan saya belajar beberapa hal dari membacanya. Saya bertanya-tanya apakah analisis efek acak akan gagal dalam jangka panjang, mungkin bisa dikalahkan oleh teknik perataan yang lebih mudah. Jika saya mencoba menjawab # 1, saya akan memilih situasi dengan variabilitas tinggi, banyak subjek, dan ukuran sampel kecil dalam subjek. Maka estimasi tetap dalam subjek akan berada di semua tempat.

— Ben Ogorek

20

1. Sebuah contoh terkenal dalam psikologi dan linguistik dijelaskan oleh Herb Clark (1973; mengikuti Coleman, 1964): "Kekeliruan bahasa sebagai efek tetap: Kritik statistik bahasa dalam penelitian psikologis."

Clark adalah seorang psikolog yang membahas eksperimen psikologis di mana sampel subjek penelitian membuat tanggapan terhadap serangkaian bahan stimulus, umumnya berbagai kata yang diambil dari beberapa corpus. Dia menunjukkan bahwa prosedur statistik standar yang digunakan dalam kasus-kasus ini, berdasarkan ANOVA tindakan berulang, dan disebut oleh Clark sebagai , memperlakukan peserta sebagai faktor acak tetapi (mungkin secara implisit) memperlakukan bahan stimulus (atau "bahasa") sebagai tetap. Hal ini menyebabkan masalah dalam menginterpretasikan hasil tes hipotesis pada faktor kondisi eksperimental: tentu saja kami ingin mengasumsikan bahwa hasil positif memberi tahu kita sesuatu tentang kedua populasi dari mana kami menarik sampel peserta kami serta populasi teoritis dari mana kami menggambar materi bahasa. Tapi $F_1$ $F_1$ , dengan memperlakukan peserta secara acak dan rangsangan sebagai tetap, hanya memberi tahu kita tentang pengaruh faktor kondisi di antara peserta serupa lainnya yang menanggapi rangsangan yang sama persis . Melakukan analisis ketika peserta dan rangsangan lebih tepat dipandang sebagai acak dapat menyebabkan tingkat kesalahan Tipe 1 yang secara substansial melebihi tingkat nominal - biasanya 0,05 - dengan tingkat tergantung pada faktor-faktor seperti jumlah dan variabilitas dari rangsangan dan desain percobaan. Dalam kasus-kasus ini, analisis yang lebih tepat, setidaknya di bawah kerangka kerja ANOVA klasik, adalah dengan menggunakan apa yang disebut statistik quasi- berdasarkan rasio kombinasi linear kuadrat rata - rata. $F_1$ $\alpha$ $F$

Makalah Clark membuat percikan dalam psikolinguistik pada saat itu, tetapi gagal membuat penyok besar dalam literatur psikologis yang lebih luas. (Dan bahkan dalam psikolinguistik nasihat Clark menjadi agak terdistorsi selama bertahun-tahun, seperti yang didokumentasikan oleh Raaijmakers, Schrijnemakers, & Gremmen, 1999). Tetapi dalam beberapa tahun terakhir masalah ini telah melihat sesuatu yang membangkitkan kembali, sebagian besar karena kemajuan statistik dalam model efek campuran, di mana model campuran klasik ANOVA dapat dilihat sebagai kasus khusus. Beberapa makalah baru-baru ini termasuk Baayen, Davidson, & Bates (2008), Murayama, Sakaki, Yan, & Smith (2014), dan ( ahem ) Judd, Westfall, & Kenny (2012). Saya yakin ada beberapa yang saya lupa.

2. Tidak tepat. Ada yang metode mendapatkan apakah faktor lebih baik dimasukkan sebagai efek acak atau tidak dalam model sama sekali (lihat misalnya, Pinheiro & Bates, 2000, hlm 83-87;. Namun melihat Barr, Levy, Scheepers, & Tily, 2013). Dan tentu saja ada teknik perbandingan model klasik untuk menentukan apakah suatu faktor lebih baik dimasukkan sebagai efek tetap atau tidak sama sekali (yaitu,uji-). Tetapi saya berpikir bahwa menentukan apakah suatu faktor lebih baik dianggap sebagai tetap atau acak umumnya lebih baik dibiarkan sebagai pertanyaan konseptual, harus dijawab dengan mempertimbangkan desain penelitian dan sifat kesimpulan yang dapat ditarik darinya. $F$

Salah satu instruktur statistik pascasarjana saya, Gary McClelland, suka mengatakan bahwa mungkin pertanyaan mendasar dari inferensi statistik adalah: "Dibandingkan dengan apa?" Mengikuti Gary, saya pikir kita dapat membingkai pertanyaan konseptual yang saya sebutkan di atas sebagai: Apa kelas referensi dari hasil eksperimen hipotetis yang ingin saya bandingkan dengan hasil pengamatan saya yang sebenarnya? Tetap dalam konteks psikolinguistik, dan mempertimbangkan desain eksperimental di mana kami memiliki sampel Subjek menanggapi sampel Kata-kata yang diklasifikasikan dalam satu dari dua Kondisi (desain khusus yang dibahas panjang lebar oleh Clark, 1973), saya akan fokus pada dua kemungkinan:

Serangkaian eksperimen di mana, untuk setiap percobaan, kami menggambar sampel Subjek baru, sampel Kata baru, dan sampel kesalahan baru dari model generatif. Di bawah model ini, Subjek dan Kata-kata keduanya efek acak.
Himpunan percobaan di mana, untuk setiap percobaan, kami menggambar sampel Subjek baru, dan sampel kesalahan baru, tetapi kami selalu menggunakan kumpulan Kata yang sama . Di bawah model ini, Subjek adalah efek acak tetapi Kata-kata adalah efek tetap.

Untuk membuat ini benar-benar konkret, di bawah ini adalah beberapa plot dari (di atas) 4 set hasil hipotesis dari 4 percobaan disimulasikan di bawah Model 1; (di bawah) 4 set hasil hipotetis dari 4 percobaan disimulasikan di bawah Model 2. Setiap percobaan melihat hasilnya dalam dua cara: (panel kiri) dikelompokkan berdasarkan Subjek, dengan Subjek Berdasarkan Kondisi berarti diplot dan diikat bersama untuk masing-masing Subjek; (panel kanan) dikelompokkan berdasarkan Kata-kata, dengan plot kotak yang merangkum distribusi tanggapan untuk setiap kata. Semua percobaan melibatkan 10 Subjek yang menanggapi 10 Kata, dan dalam semua percobaan "hipotesis nol" tanpa perbedaan kondisi adalah benar dalam populasi yang relevan.

Subjek dan Kata keduanya acak: 4 percobaan disimulasikan

both_random

Perhatikan di sini bahwa dalam setiap percobaan, profil respons untuk Subjek dan Kata-kata sangat berbeda. Untuk Subjek, kami terkadang mendapatkan responden keseluruhan rendah, terkadang responden tinggi, kadang-kadang Subjek yang cenderung menunjukkan perbedaan Kondisi yang besar, dan kadang-kadang Subjek yang cenderung menunjukkan perbedaan Kondisi kecil. Demikian pula, untuk Kata-kata, kita terkadang mendapatkan Kata-kata yang cenderung mendapat respons rendah, dan terkadang mendapatkan Kata-kata yang cenderung mendapat respons tinggi.

Subjek acak, Kata-kata tetap: 4 percobaan disimulasikan

subs_random

Perhatikan di sini bahwa di seluruh 4 percobaan simulasi, Subjek terlihat berbeda setiap saat, tetapi profil respons untuk Kata-kata pada dasarnya terlihat sama, konsisten dengan asumsi bahwa kami menggunakan kembali rangkaian Kata yang sama untuk setiap percobaan dalam model ini.

Pilihan kami apakah kami menganggap Model 1 (Subjek dan Kata-kata acak) atau Model 2 (Subjek acak, Kata-kata tetap) memberikan kelas referensi yang sesuai untuk hasil eksperimen yang kami amati dapat membuat perbedaan besar pada penilaian kami apakah manipulasi kondisi "bekerja." Kami mengharapkan lebih banyak variasi peluang dalam data di bawah Model 1 daripada di bawah Model 2, karena ada lebih banyak "komponen bergerak". Jadi jika kesimpulan yang ingin kita tarik lebih konsisten dengan asumsi Model 1, di mana variabilitas peluang relatif lebih tinggi, tetapi kami menganalisis data kami di bawah asumsi Model 2, di mana variabilitas peluang relatif lebih rendah, maka kesalahan Tipe 1 kami tingkat untuk menguji perbedaan Kondisi akan meningkat hingga beberapa (mungkin cukup besar). Untuk informasi lebih lanjut, lihat Referensi di bawah ini.

Referensi

Baayen, RH, Davidson, DJ, & Bates, DM (2008). Pemodelan efek campuran dengan efek acak silang untuk subjek dan item. Jurnal memori dan bahasa, 59 (4), 390-412. PDF

Barr, DJ, Levy, R., Scheepers, C., & Tily, HJ (2013). Struktur efek acak untuk pengujian hipotesis konfirmasi: Jaga agar tetap maksimal. Jurnal Memori dan Bahasa, 68 (3), 255-278. PDF

Clark, HH (1973). Kekeliruan sebagai efek tetap: Kritik terhadap statistik bahasa dalam penelitian psikologis. Jurnal pembelajaran verbal dan perilaku verbal, 12 (4), 335-359. PDF

Coleman, EB (1964). Generalisasi ke populasi bahasa. Laporan Psikologis, 14 (1), 219-226.

Judd, CM, Westfall, J., & Kenny, DA (2012). Memperlakukan rangsangan sebagai faktor acak dalam psikologi sosial: solusi baru dan komprehensif untuk masalah yang meluas tetapi sebagian besar diabaikan. Jurnal kepribadian dan psikologi sosial, 103 (1), 54. PDF

Murayama, K., Sakaki, M., Yan, VX, & Smith, GM (2014). Inflasi Kesalahan Tipe I dalam Analisis Tradisional Oleh-Peserta ke Akurasi Metamem: Sebuah Perspektif Model Efek Campuran Umum. Jurnal Psikologi Eksperimental: Belajar, Memori, dan Kognisi. PDF

Pinheiro, JC, & Bates, DM (2000). Model efek campuran di S dan S-PLUS. Peloncat.

Raaijmakers, JG, Schrijnemakers, J., & Gremmen, F. (1999). Cara menangani "kekeliruan bahasa sebagai efek tetap": Kesalahpahaman umum dan solusi alternatif. Jurnal Memori dan Bahasa, 41 (3), 416-426. PDF

— Jake Westfall
sumber

1

+1 Ini jawaban yang bagus, dan makalah 2012 Anda adalah bacaan yang sangat bagus.

— Amoeba berkata Reinstate Monica

karena pertanyaan awal telah dikaitkan dengan diskusi yang sangat baik yang masuk ke ini - apa sebenarnya yang Anda maksud?

— James

1

Tautan Gelman

— Jake Westfall

@ James, saya melanjutkan dan menambahkan beberapa hal yang lebih konseptual, termasuk beberapa gambar. Biarkan aku tahu apa yang Anda pikirkan.

— Jake Westfall

Terima kasih atas fotonya. Menurut paragraf terakhir Anda, semakin banyak efek dalam model diberi label sebagai acak, semakin tinggi nilai p untuk sisa efek tetap. Namun, untuk model aditif sepertinya ketika metode "penahanan" default digunakan dalam PROC CAMPURAN, maka nilai p untuk efek tetap akan sama. Satu contoh khusus dalam pertanyaan ini: stats.stackexchange.com/q/112640/54099 Bagaimana Anda bisa menjelaskannya?

— James

1

Misalkan saya memiliki proses pembuatan yang melibatkan pembuatan bahan pada beberapa mesin yang berbeda. Mereka satu-satunya mesin yang saya miliki sehingga "mesin" adalah efek tetap. Tetapi saya membuat banyak materi di setiap mesin dan saya tertarik untuk memprediksi hal-hal tentang lot di masa depan. Saya akan menjadikan "Jumlah lot" sebagai faktor acak karena saya tertarik dengan hasil yang akan saya dapatkan untuk lot di masa mendatang .

— Emil Friedman
sumber

1

Dear Emil: Saya khawatir Anda gagal memahami pertanyaan yang saya ajukan. Contoh Anda mengilustrasikan definisi paling umum dari "tetap vs acak" yang saya sendiri berikan dalam pertanyaan saya. Ngomong-ngomong, dengan menggunakan contoh Anda, dapatkah Anda memberi tahu saya mengapa mengambil kesimpulan tentang tanggapan di masa mendatang dari model di mana nomor lot merupakan faktor tetap?

— James

Jika Anda memperlakukan "nomor lot" sebagai tetap, kesimpulan Anda hanya akan berlaku untuk lot yang telah Anda uji. Dalam situasi lain hal yang sama terjadi. Jika Anda ingin membuat kesimpulan tentang efek acak maka memperlakukannya sebagai efek tetap umumnya akan memberikan jawaban yang salah. Dalam banyak situasi model campuran, memperlakukan efek acak sebagai efek tetap bahkan akan memberikan jawaban yang salah mengenai efek yang sebenarnya diperbaiki.

— Emil Friedman

Ini bukan masalah terbalik atau downside. Jika seseorang melakukan analisis yang tidak sesuai hasilnya biasanya akan salah.

— Emil Friedman

Bisakah Anda memberikan referensi untuk studi simulasi yang menunjukkan bagaimana hasilnya menjadi salah tergantung pada label tetap / acak?

— James

Perhatikan juga bahwa MLE tidak datang secara gratis, terutama ketika komponen varians hadir. Cobalah untuk membuat desain faktorial menyeberang dengan 3 faktor dan beberapa kovariat berlanjut. Kemudian cobalah memperkirakan model tetap murni dan beberapa spesifikasi campuran. Selama ada komponen acak yang menyebabkan peralihan dari OLS ke MLE / REML, masalah dengan konvergensi, mendapatkan komponen varians nol atau negatif, atau hasil yang tidak berarti lainnya lebih mungkin terjadi.

— James

1

Jadi Anda memperlakukannya secara acak sehingga ada efek rata-rata antara rata-rata keseluruhan dan rata-rata untuk faktor tertentu berdasarkan ukuran sampel faktor dan jumlah keseluruhan pengamatan. Ini memungkinkan Anda untuk mengatakan bahwa hasil Anda berlaku untuk populasi pada umumnya, karena Anda memiliki jenis rata-rata tertimbang dan perkiraan variasi karena faktor itu, jika tidak, Anda benar-benar hanya bisa mengatakan bahwa hasil Anda berlaku untuk tingkat faktor. Anda menggunakan karena regresi akan memperlakukan mereka sebagai faktor diskrit dan bukan faktor acak yang mendapatkan rata-rata tertimbang.

Mereka juga berguna ketika Anda telah mengulangi tindakan pada subjek yang sama, karena Anda dapat menggunakannya untuk menjelaskan korelasi antara tindakan pada subjek yang sama.

— Edward Fancher
sumber

Adapun RM, itulah salah satu alasan mengapa saya mengajukan pertanyaan di tempat pertama. Seperti yang saya sebutkan di sini: stats.stackexchange.com/q/112640/54099 memperlakukan Subjek sebagai tetap atau acak tidak mengubah nilai p Pengobatan, jadi mengapa repot-repot.

— James

Jika Anda memiliki desain silang sederhana dengan satu faktor tetap dan satu acak dan menggunakan Kuadrat Rata-Rata yang Diharapkan, nilai-p untuk faktor tetap akan berbeda dari apa yang akan Anda dapatkan jika Anda memperlakukan keduanya sebagai tetap.

— Emil Friedman

1

$Y_{ij} = \beta_1 X_{ij} + \beta_2 Z_{i} + e_{i} + \mu_{ij}$ $X_{ij}$ $Z_{i}$ $\beta_2$ $Z_{i}$ $i$ $Z_{i}$

$Y_{ij} = \beta_1 X_{ij} + e_{i} + \mu_{ij}$ $Z_{i}$

$\beta_1$ $\beta_1$

(Jawaban Asli)

Satu tempat di mana Anda pada dasarnya diminta untuk menggunakan efek acak adalah ketika Anda ingin memasukkan parameter yang tidak berubah pada tingkat pengelompokan efek tetap.

Misalnya, Anda ingin menyelidiki dampak karakteristik dokter (misalnya / pendidikan) pada hasil pasien. Dataset adalah tingkat pasien dengan hasil pasien yang diamati dan karakteristik pasien / dokter. Karena pasien yang dirawat di bawah satu dokter kemungkinan berkorelasi, Anda ingin mengendalikannya. Anda dapat memasukkan efek tetap dokter di sini, tetapi dengan melakukannya, Anda tidak menyertakan karakteristik dokter apa pun dalam model. Yang bermasalah jika minatnya adalah karakteristik tingkat dokter.

— Affine
sumber

Bisakah Anda memberikan beberapa pernyataan model?

— James

0

Saya pikir ini terkait dengan konsistensi estimasi.

$x_{ij} = a_i+b_j+e$ $a_i$

$b_j$

Neyman dan Scott (1948) menunjukkan masalah konsistensi

$a_i$ $b_j$

konsisten. Setidaknya, itulah yang saya mengerti ...

— KH Kim
sumber