Ada dua bagian untuk ini: (a) memilih grafik ( desain eksperimental ) untuk menentukan pasangan esai yang akan dievaluasi siswa dalam proses penilaian teman sebaya, dan (b) memberi peringkat semua esai, berdasarkan nilai teman sejawat siswa, untuk tentukan peringkat guru yang mana. Saya akan menyarankan beberapa metode untuk masing-masing.
Memilih grafik
Pernyataan masalah. Langkah pertama adalah membuat grafik. Dengan kata lain, Anda perlu memilih pasangan esai yang akan ditunjukkan kepada siswa, selama latihan penilaian teman sebaya.
G
d
n
Untungnya, ada algoritma yang dikenal untuk melakukan ini. Pada dasarnya, Anda melakukan hal berikut:
3nn3n3n
n
Selanjutnya, uji apakah grafik yang dihasilkan sederhana (yaitu, tidak memiliki loop otomatis dan tidak ada ujung yang berulang). Jika tidak sederhana, buang grafik dan kembali ke langkah 1. Jika sederhana, Anda sudah selesai; Keluarkan grafik ini.
O(1)
Saya telah melihat pendekatan ini dikreditkan ke Bollobas, Bender, dan Canfield. Pendekatan ini juga diringkas secara singkat di Wikipedia . Anda juga dapat menemukan diskusi di posting blog ini .
nnn
Beri peringkat semua esai
Pernyataan masalah. OK, jadi sekarang Anda memiliki grafik, dan Anda telah mempresentasikan pasangan esai ini (seperti yang ditunjukkan oleh tepi dalam grafik) kepada siswa untuk mereka nilai selama latihan penilaian teman sebaya. Anda memiliki hasil dari setiap perbandingan esai. Sekarang tugas Anda adalah menyimpulkan peringkat linear pada semua esai, untuk membantu Anda menentukan mana yang harus dievaluasi oleh guru.
Larutan. Saya menyarankan Anda menggunakan model Bradley-Terry . Ini adalah pendekatan matematika yang memecahkan masalah ini dengan tepat. Itu dirancang untuk pemain peringkat di beberapa olahraga, berdasarkan hasil pertandingan antara beberapa pasangan pemain. Diasumsikan bahwa setiap pemain memiliki kekuatan (tidak diketahui), yang dapat dikuantifikasi sebagai bilangan real, dan probabilitas bahwa Alice mengalahkan Bob ditentukan oleh beberapa fungsi halus dari perbedaan kekuatan mereka. Kemudian, mengingat catatan menang / kalah berpasangan, itu memperkirakan kekuatan masing-masing pemain.
Ini harusnya cocok untuk Anda. Anda dapat memperlakukan setiap esai sebagai pemain. Setiap perbandingan antara dua esai (selama proses penilaian sejawat) seperti hasil dari kecocokan di antara mereka. Model Bradley-Terry akan memungkinkan Anda untuk mengambil semua data itu, dan menyimpulkan kekuatan untuk setiap esai, di mana kekuatan yang lebih tinggi sesuai dengan esai yang lebih baik. Sekarang Anda dapat menggunakan kekuatan-kekuatan itu untuk menyusun urutan semua esai.
ij
Ada beberapa cara alternatif untuk menyimpulkan peringkat atau peringkat untuk semua esai, mengingat data yang Anda miliki. Sebagai contoh, metode Elo adalah metode lain. Saya merangkum beberapa dari mereka dalam jawaban saya untuk pertanyaan yang berbeda ; baca jawaban itu untuk lebih jelasnya.
Satu komentar lain: Model Bradley-Terry mengasumsikan bahwa hasil dari setiap perbandingan antara dua pemain adalah menang atau kalah (yaitu, hasil biner). Namun, sepertinya Anda akan benar-benar memiliki data yang lebih terperinci: slider Anda akan memberikan perkiraan kasar tentang seberapa baik siswa kelas menilai satu esai daripada yang lain. Pendekatan paling sederhana adalah dengan hanya memetakan setiap slider ke hasil biner. Namun, jika Anda benar-benar ingin, Anda mungkin dapat menggunakan semua data, dengan menggunakan analisis yang lebih canggih. Model Bradley-Terry melibatkan melakukan regresi logistik. Jika Anda menggeneralisasi untuk menggunakan logit yang dipesan , saya yakin Anda dapat mengambil keuntungan dari informasi tambahan yang Anda miliki dari setiap slider, mengingat bahwa hasil dari slider tidak biner tetapi merupakan salah satu dari beberapa kemungkinan.
Penggunaan guru yang efisien
Anda menyarankan agar guru secara manual memberi peringkat X% atas dan X% bawah dari semua esai (menggunakan peringkat yang disimpulkan dari hasil penilaian teman sebaya). Ini bisa berhasil, tetapi saya curiga itu bukan penggunaan waktu guru yang paling efisien. Sebaliknya, saya ingin menyarankan pendekatan alternatif.
Saya menyarankan agar Anda memberi nilai kepada guru bagian dari esai, dengan bagian yang dipilih dengan cermat untuk mencoba memberikan kalibrasi terbaik untuk semua esai yang tidak dinilai oleh guru. Untuk ini, saya pikir mungkin akan membantu jika Anda memilih sampel esai yang mencakup berbagai kemungkinan jawaban (jadi untuk setiap esai, ada beberapa esai bertingkat guru yang tidak terlalu jauh dari itu). Untuk ini, saya dapat memikirkan dua pendekatan yang dapat Anda pertimbangkan untuk mencoba:
nkkk
kd(ei,ej)eiejSd(e,S)=mine′∈Sd(e,e′)menjadi jarak dari ke esai terdekat di . Algoritma pertama titik terjauh menghitung daftar esai , , sebagai berikut: adalah esai yang memaksimalkan (dari semua esai sehingga ). Algoritma ini menghasilkan satu set esai yang mungkin berbeda satu sama lain - yang berarti bahwa masing-masing esai yang tersisa cukup mirip dengan setidaknya salah satu dari mereka . Oleh karena itu, masuk akal untuk meminta guru memberi nilaieSke1,e2,…,ekei+1d(e,{e1,e2,…,ei})ek k ke∉{e1,e2,…,ei}kkk esai dipilih oleh algoritma FPF.
Saya menduga salah satu dari pendekatan ini mungkin memberikan skor yang lebih akurat daripada meminta guru menilai X% tertinggi dan X% esai terendah - karena esai terbaik dan terburuk mungkin tidak mewakili massa esai di tengah.
Dalam kedua pendekatan, Anda bisa menggunakan fungsi jarak yang lebih canggih yang memperhitungkan tidak hanya perkiraan kekuatan berdasarkan penilaian rekan kerja tetapi juga faktor-faktor lain yang berasal dari esai. Fungsi jarak sesederhana mungkin hanya akan mempertimbangkan hasil dari model Terry-Bradley, yaitu, mana adalah kekuatan dari esai seperti yang diperkirakan oleh model Terry-Bradley berdasarkan hasil gradasi rekan. Namun, Anda dapat melakukan sesuatu yang lebih canggih. Misalnya, Anda dapat menghitung jarak edit Levenshtein yang dinormalisasi antara esai dan s ( e ) e e 1 e 2 kd(e1,e2)=(s(e1)−s(e2))2s(e)ee1e2(memperlakukan mereka sebagai string teks, menghitung jarak edit, dan membaginya dengan panjang yang lebih besar dari keduanya) dan menggunakannya sebagai faktor lain dalam fungsi jarak. Anda juga dapat menghitung vektor fitur menggunakan model bag-of-words pada kata-kata dalam esai, dan menggunakan jarak L2 antara vektor fitur ini (dengan fitur yang dinormalisasi menggunakan tf-idf) sebagai faktor lain dalam fungsi jarak. Anda mungkin menggunakan fungsi jarak yang merupakan rata-rata tertimbang dari perbedaan kekuatan (berdasarkan perkiraan Terry-Bradley), jarak edit yang dinormalisasi, dan hal lain yang tampaknya membantu. A seperti lebih canggih fungsi jarak kekuatan bantuan melakukan pekerjaan yang lebih baik membantu algoritma pengelompokan pilih yang terbaik esai untuk memiliki kelas guru.k