Mengetahui bagaimana siswa kelas berbeda baik, tapi masih tidak memberitahu Anda apa yang harus mengkompensasi nilai untuk . Untuk kesederhanaan bayangkan hanya dua siswa kelas. Sekalipun kita menyimpulkan bahwa siswa kelas 1 secara konsisten 5 nilai lebih murah daripada siswa kelas 2, itu tidak memberi tahu Anda apa yang harus dilakukan dengan dua siswa yang masing-masing dinilai 70, satu per kelas 1 dan satu per kelas 2. Kita katakan bahwa siswa kelas 2 adalah penanda yang keras, dan menaikkan 70 ke 75, sambil mempertahankan 70 yang ditandai oleh siswa kelas 1 tidak berubah? Atau apakah kita menganggap siswa kelas 1 terlalu lunak, menjatuhkan muridnya menjadi 65, dan mempertahankan nilai siswa kelas 2 70 tidak berubah? Apakah kita berkompromi di tengah jalan antara - memperluas ke kasus Anda, berdasarkan rata-rata dari 11 siswa kelas? Nilai absolutlah yang penting, jadi mengetahui kedermawanan relatif tidak cukup.
Kesimpulan Anda mungkin bergantung pada seberapa "objektif" Anda merasakan tanda absolut final seharusnya. Satu model mental adalah mengusulkan setiap siswa memiliki nilai "benar" - nilai yang akan diberikan oleh Penilai Utama jika mereka punya waktu untuk menandai setiap kertas secara individual - yang nilai yang diamati adalah perkiraan. Dalam model ini, nilai yang diamati perlu dikompensasi untuk kelas mereka, untuk membawa mereka sedekat mungkin ke kelas "benar" yang tidak teramati. Model lain mungkin bahwa semua penilaian bersifat subyektif, dan kami berusaha untuk mengubah setiap nilai yang diamati ke nilai yang kami perkirakan akan diberikan jika semua siswa menilai kertas yang sama dan mencapai semacam kompromi atau nilai rata-rata untuknya. Saya menemukan model kedua kurang meyakinkan sebagai solusi bahkan jika pengakuan subjektivitas lebih realistis. Dalam lingkungan pendidikan biasanya ada seseorang yang memikul tanggung jawab utama untuk penilaian, untuk memastikan bahwa siswa menerima "nilai yang pantas mereka dapatkan", tetapi peran utama ini pada dasarnya membebaskan tanggung jawab kepada siswa kelas yang sudah kita kenal sangat tidak setuju. Dari sini saya berasumsi di sanaadalah satu nilai "benar" yang kami perkirakan untuk ditaksir, tetapi ini adalah proposisi yang dapat diperebutkan dan mungkin tidak sesuai dengan keadaan Anda.
Misalkan siswa A, B, C dan D, semuanya dalam kohort yang sama, "harus" dinilai masing-masing 75, 80, 85 dan 90 tetapi siswa mereka yang murah hati secara konsisten menandai 5 nilai terlalu tinggi. Kami mengamati 80, 85, 90 dan 95 dan harus mengurangi 5, tetapi menemukan angka untuk mengurangi itu bermasalah. Itu tidak dapat dilakukan dengan membandingkan hasil antara kohort karena kami berharap kohort bervariasi dalam kemampuan rata-rata. Salah satu kemungkinan adalah menggunakan hasil tes pilihan ganda untuk memprediksi skor yang benar pada tugas kedua, kemudian gunakan ini untuk menilai variasi antara setiap kelas dan nilai yang benar. Tetapi membuat prediksi ini tidak sepele - jika Anda mengharapkan perbedaan mean dan standar deviasi antara kedua penilaian, Anda tidak bisa hanya berasumsi bahwa nilai penilaian kedua harus cocok dengan yang pertama.
Juga, siswa berbeda dalam bakat relatif pada penilaian pilihan ganda dan tertulis. Anda bisa memperlakukan itu sebagai semacam efek acak, membentuk komponen nilai "diamati" dan "benar" siswa, tetapi tidak ditangkap oleh nilai "prediksi" mereka. Jika kohort berbeda secara sistematis dan siswa dalam kohort cenderung serupa, maka kita seharusnya tidak mengharapkan efek ini rata-rata menjadi nol dalam setiap kohort. Jika sebuah kohort mengamati nilai rata-rata +5 versus yang diprediksi, tidak mungkinuntuk menentukan apakah ini disebabkan oleh seorang siswa kelas yang murah hati, suatu kelompok yang secara khusus lebih cocok untuk penilaian tertulis daripada pilihan ganda, atau kombinasi keduanya. Dalam kasus yang ekstrim, kohort bahkan mungkin memiliki bakat yang lebih rendah pada penilaian kedua tetapi memiliki ini lebih dari dikompensasi oleh siswa kelas yang sangat murah hati - atau sebaliknya. Anda tidak dapat memisahkan ini. Itu membingungkan.
Saya juga meragukan kecukupan model aditif sederhana untuk data Anda. Grader mungkin berbeda dari Lead Assessor tidak hanya berdasarkan pergeseran lokasi, tetapi juga penyebaran - meskipun karena kohort cenderung berbeda dalam homogenitas, Anda tidak bisa hanya memeriksa penyebaran nilai yang diamati di setiap kohort untuk mendeteksi hal ini. Selain itu, sebagian besar distribusi memiliki skor tinggi, cukup dekat maksimum teoretis 100. Saya mengantisipasi ini memperkenalkan non-linearitas karena kompresi mendekati maksimum - grader yang sangat murah hati dapat memberikan tanda A, B, C dan D seperti 85, 90, 94, 97. Ini lebih sulit untuk dibalikkan daripada hanya mengurangkan konstanta. Lebih buruk lagi, Anda mungkin melihat "kliping" - siswa kelas yang sangat dermawan dapat menilai mereka sebagai 90, 95, 100, 100. Ini tidak mungkinuntuk membalikkan, dan informasi tentang kinerja relatif C dan D hilang secara tak terpulihkan.
Siswa kelas Anda berperilaku sangat berbeda. Apakah Anda yakin mereka berbeda hanya dalam kemurahan hati mereka secara keseluruhan, daripada dalam kemurahan hati mereka dalam berbagai komponen penilaian? Ini mungkin layak untuk diperiksa, karena dapat menimbulkan berbagai komplikasi - misalnya tingkat yang diamati untuk B mungkin lebih buruk daripada A, meskipun B menjadi 5 poin "lebih baik", bahkan jika tanda yang dialokasikan grader untuk setiap komponen adalah fungsi yang meningkat secara monoton dari Assessor Utama! Misalkan penilaian dibagi antara Q1 (A harus skor 30/50, B 45/50) dan Q2 (A harus skor 45/50, B 35/50). Bayangkan gradernya sangat lunak pada Q1 (nilai yang diamati: A 40/50, B 50/50) tetapi keras pada Q2 (diamati: A 42/50, 30/50), maka kita amati total 82 untuk A dan 80 untuk B. Jika Anda harus mempertimbangkan skor komponen,
Bisa dibilang ini adalah komentar yang diperluas daripada jawaban, dalam arti itu tidak mengusulkan solusi tertentu dalam batas-batas asli masalah Anda. Tetapi jika siswa Anda sudah menangani masing-masing sekitar 55 makalah, apakah sangat buruk bagi mereka untuk melihat lima atau sepuluh lagi untuk tujuan kalibrasi? Anda sudah memiliki gagasan yang bagus tentang kemampuan siswa, sehingga dapat memilih sampel kertas dari berbagai kelas. Anda kemudian dapat menilai apakah Anda perlu mengkompensasi kemurahan hati grader di seluruh tes atau di setiap komponen, dan apakah akan melakukannya hanya dengan menambahkan / mengurangi konstanta atau dengan sesuatu yang lebih canggih seperti interpolasi (misalnya jika Anda khawatir tentang non- linearitas mendekati 100). Tapi satu kata peringatan tentang interpolasi: misalkan Penilai Utama menandai lima makalah sampel sebagai 70, 75, 80, 85 dan 90, sementara grader menandai mereka sebagai 80, 88, 84, 93 dan 96 sehingga ada beberapa ketidaksepakatan tentang ketertiban. Anda mungkin ingin memetakan nilai yang diamati dari 96 hingga 100 ke interval 90 hingga 100, dan nilai yang diamati dari 93 hingga 96 ke interval 85 hingga 90. Tetapi beberapa pemikiran diperlukan untuk tanda di bawahnya. Mungkin nilai yang diamati dari 84 hingga 93 harus dipetakan ke interval 75 hingga 85? Alternatif adalah regresi (mungkin polinomial) untuk mendapatkan formula untuk "prediksi nilai sebenarnya" dari "nilai yang diamati". Mungkin nilai yang diamati dari 84 hingga 93 harus dipetakan ke interval 75 hingga 85? Alternatif adalah regresi (mungkin polinomial) untuk mendapatkan formula untuk "prediksi nilai sebenarnya" dari "nilai yang diamati". Mungkin nilai yang diamati dari 84 hingga 93 harus dipetakan ke interval 75 hingga 85? Alternatif adalah regresi (mungkin polinomial) untuk mendapatkan formula untuk "prediksi nilai sebenarnya" dari "nilai yang diamati".