Apakah efek kelompok dalam model efek campuran dianggap telah diambil dari distribusi normal?

Katakanlah kami tertarik pada bagaimana nilai ujian siswa dipengaruhi oleh jumlah jam belajar siswa tersebut. Kami mengambil sampel siswa dari beberapa sekolah yang berbeda. Kami menjalankan model efek campuran berikut:

{nilai ujian}_{saya} = Sebuah + β_{1} \times {jam. belajar}_{saya} + {sekolah}_{j} + e_{saya}

$\text{exam.grades}_i = a + \beta_1 \times \text{hours.studied}_i + \text{school}_j + e_i$

Apakah saya benar mengatakan bahwa, dalam model ini, masing-masing sekolah diasumsikan telah dipilih dari populasi sekolah yang lebih besar, dan bahwa efek sekolah terdistribusi secara normal? Oleh karena itu, dapatkah kita melakukan semua prosedur tipe distribusi normal 'biasa' untuk efek kelompok sekolah? Bisakah kita mengatakan hal-hal seperti 68% sekolah akan berada dalam 1 standar deviasi dari efek kelompok rata-rata sekolah? Dan bisakah kita menghitung interval kepercayaan 95% untuk efek kelompok rata-rata keseluruhan sekolah?

Apakah saya juga benar mengatakan bahwa regresi linier dengan efek tetap sekolah tidak dapat menghitung statistik distribusi normal ini karena mereka menggunakan kelompok referensi dan variabel dummy?

— luciano
sumber

Anda benar dalam mengatakan bahwa dalam model efek campuran linier standar, efek acak diasumsikan terdistribusi normal. Jadi, jika asumsi ini berlaku (setidaknya kira-kira), kita dapat menggunakan apa yang kita ketahui tentang distribusi normal untuk membantu menggambarkan distribusi efek acak, seperti 95% dari efek acak harus dalam dua standar deviasi 0 (karena acak efek terpusat sekitar 0).

Yang sedang berkata, penting untuk memeriksa asumsi ini, dan itu tidak selalu mudah! Jika Anda memiliki banyak data tentang setiap cluster, Anda dapat melakukan sesuatu seperti analisis bertingkat dan plot interval kepercayaan untuk masing-masing cluster. Ini masih bisa sedikit sulit; misalkan Anda memiliki satu pencilan ekstrem, yaitu interval kepercayaan yang ketat beberapa penyimpangan standar dari 0. Apakah ini karena efek acak ini sangat besar dan kami sangat yakin tentang ini? Atau apakah ini karena kami tidak memiliki banyak data tentang efek acak ini dan kami telah meremehkan varians karena ukuran sampel yang kecil?

Adapun perbedaan antara regresi linier sederhana dan model efek campuran, jawabannya adalah bahwa model efek campuran jauh lebih rumit. Efek acak diasumsikan semuanya dihasilkan dari distribusi yang sama (biasanya normal). Dengan demikian, perkiraan efek acak sebenarnya ditarik menuju 0 (ingat bahwa efek acak berpusat pada 0) dibandingkan jika Anda baru saja memasukkan model regresi linier sederhana dengan semua efek tetap.

Juga, perbedaan lain adalah bahwa efek acak ditetapkan memiliki rata-rata 0, yang memungkinkan pengidentifikasian penuh model: jika Anda mencoba menyesuaikan efek utama DAN semua efek acak dalam model linier sederhana, model Anda tidak akan dapat diidentifikasi. Ini karena menambahkan 1 ke efek utama dan mengurangi 1 dari efek "acak" (kutipan yang digunakan karena Anda akan mencocokkannya sebagai efek tetap) akan menghasilkan nilai prediksi yang sama persis. Masalah ini tidak begitu penting: kita dapat dengan mudah mengecualikan efek utama dari model, dan kemudian jika kita tertarik untuk memeriksa efek utama, kita hanya akan mengambil rata-rata semua efek "acak". Namun, seperti yang disebutkan di atas, perkiraan efek "acak" akan jauh lebih ribut daripada jika mereka telah cocok dengan model efek campuran: pada informasi cluster itu, daripada juga meminjam informasi yang diberikan tentang distribusi efek cluster.

— Cliff AB
sumber