12 guru mengajar 600 siswa. 12 kohort yang diajarkan oleh guru-guru ini memiliki ukuran dari 40 hingga 90 siswa, dan kami mengharapkan perbedaan sistematis antara kohort, karena siswa pascasarjana dialokasikan secara tidak proporsional ke kohort tertentu, dan pengalaman sebelumnya telah menunjukkan bahwa skor rata-rata siswa pascasarjana jauh lebih tinggi daripada para mahasiswa sarjana.
Para guru telah menilai semua kertas dalam kelompok mereka, dan telah memberi mereka nilai dari 100.
Setiap guru juga telah melihat satu kertas yang dipilih secara acak dari tiga guru lain, dan memberinya nilai 100. Setiap guru memiliki tiga kertasnya yang ditandai oleh guru lain. 36 makalah yang berbeda telah ditandai dengan cara ini, dan saya menyebutnya data kalibrasi saya.
Saya juga bisa melihat berapa banyak mahasiswa pascasarjana di setiap kelompok.
Pertanyaan saya adalah:
A) Bagaimana saya bisa menggunakan data kalibrasi ini untuk menyesuaikan tanda asli agar lebih adil? Secara khusus, saya ingin menghapus sebanyak mungkin efek dari pembuat yang terlalu dermawan / tidak ramah.
B) Seberapa tepat data kalibrasi saya? Saya tidak punya pilihan dalam 36 titik data data kalibrasi yang agak terbatas yang saya dapatkan dalam kursus ini, dan tidak memiliki pilihan untuk mengumpulkan lagi selama semester saat ini. Namun, jika situasi ini berulang, saya mungkin dapat mengumpulkan lebih banyak data kalibrasi atau mengumpulkan berbagai jenis data kalibrasi.
Pertanyaan ini adalah kerabat dari pertanyaan populer yang saya ajukan di: Bagaimana saya bisa menangani efek spidol dengan tingkat kemurahan hati yang berbeda dalam menilai makalah siswa? . Namun, ini kursus yang berbeda dan saya tidak yakin seberapa berguna membaca pertanyaan itu sebagai latar belakang untuk pertanyaan saat ini, karena masalah utamanya adalah saya tidak punya data kalibrasi.
lm(score ~ gradStudent + ... + teacherID
harus melakukannya.