13

Sekitar 600 siswa memiliki skor pada penilaian yang luas, yang dapat dianggap memiliki keandalan / validitas yang baik. Penilaian dinilai dari 100, dan ini merupakan tes pilihan ganda yang ditandai oleh komputer.

Ke-600 siswa itu juga mendapat nilai pada penilaian kedua, minor,. Dalam penilaian kedua ini, mereka dipisahkan menjadi 11 kohort dengan 11 siswa kelas yang berbeda, dan terdapat variasi variasi yang tidak dapat dihindari antara siswa kelas dalam hal 'kedermawanan' mereka dalam memberi tanda, atau kekurangannya. Penilaian kedua ini juga mendapat skor 100.

Siswa tidak ditugaskan untuk kohort secara acak, dan ada alasan bagus untuk mengharapkan perbedaan tingkat keterampilan antara kohort.

Saya diberi tugas untuk memastikan bahwa perbedaan antara penanda kohort pada tugas kedua tidak secara material menguntungkan / merugikan siswa secara individual.

Ide saya adalah untuk mendapatkan skor kohort pada penilaian kedua untuk menyatu dengan skor kohort pada yang pertama, sambil mempertahankan perbedaan individu dalam kohort. Kita harus berasumsi bahwa saya memiliki alasan kuat untuk meyakini bahwa kinerja pada dua tugas akan sangat berkorelasi, tetapi bahwa penanda sangat berbeda dalam kemurahan hati mereka.

Apakah ini pendekatan terbaik? Jika tidak, apa itu?

Akan sangat dihargai jika penjawab dapat memberikan beberapa tips praktis tentang bagaimana menerapkan solusi yang baik, katakan dalam R atau SPSS atau Excel.

agreement-statistics

— user1205901 - Pasang kembali Monica
sumber

3

Pertanyaan bagus! Apakah skor akhir untuk pilihan berganda dan bagian esai seharusnya sebanding (yaitu rentang angka yang sama)?

— gung - Reinstate Monica

2

Ketika saya sedang menulis pertanyaan ini, saya pikir itu mungkin di lorong Anda! Skor akhir sebanding secara luas, tetapi sedikit berbeda. Rata-rata pada bagian pilihan ganda adalah ~ 70 dengan SD sekitar 15. Rata-rata pada bagian lainnya adalah ~ 85 dengan SD sekitar 6.

— user1205901 - Reinstate Monica

7

Saya akan curiga terhadap segala upaya untuk menyelesaikan masalah ini hanya berdasarkan data yang telah Anda uraikan, karena itu harus didasarkan pada asumsi yang kuat (dan tidak dapat diuji coba) bahwa tidak ada interaksi antara kohort dan kinerja pada dua instrumen tes yang terpisah. Jika memungkinkan, pertimbangkan opsi untuk melakukan percobaan kecil terpisah untuk mengkalibrasi grader.

— whuber

9

Untuk melihat lebih baik di mana masalahnya terletak, anggaplah (secara hipotetis) bahwa (1) dua bentuk penilaian adalah pilihan ganda dan esai dan (2) siswa Anda yang lebih tua cenderung melakukan relatif lebih baik pada pertanyaan esai. Ketika Anda menggunakan data Anda untuk membuat skor "menyatu" Anda akan mengacaukan efek grader dengan efek usia dan, dengan membuat penyesuaian, dengan demikian secara sistematis merugikan siswa yang lebih tua dibandingkan dengan yang lebih muda. Tidak peduli seberapa canggih algoritma yang Anda pilih, itu hanya dapat mengatasi masalah dasar ini. Anda memerlukan beberapa data tambahan untuk menyelesaikan masalah ini.

— whuber

3

Satu hal yang perlu dipertimbangkan adalah bagaimana nyaman Anda akan menjelaskan prosedur penyesuaian siswa atau pemangku kepentingan lainnya: banyak mungkin merasa bahwa mengingat masalah potensial dengan menandai, menempatkan beberapa upaya ke kalibrasi yang tepat dari penanda tidak akan terlalu banyak untuk mengharapkan jika ujian itu penting.

— Scortchi

8

Mengetahui bagaimana siswa kelas berbeda baik, tapi masih tidak memberitahu Anda apa yang harus mengkompensasi nilai untuk . Untuk kesederhanaan bayangkan hanya dua siswa kelas. Sekalipun kita menyimpulkan bahwa siswa kelas 1 secara konsisten 5 nilai lebih murah daripada siswa kelas 2, itu tidak memberi tahu Anda apa yang harus dilakukan dengan dua siswa yang masing-masing dinilai 70, satu per kelas 1 dan satu per kelas 2. Kita katakan bahwa siswa kelas 2 adalah penanda yang keras, dan menaikkan 70 ke 75, sambil mempertahankan 70 yang ditandai oleh siswa kelas 1 tidak berubah? Atau apakah kita menganggap siswa kelas 1 terlalu lunak, menjatuhkan muridnya menjadi 65, dan mempertahankan nilai siswa kelas 2 70 tidak berubah? Apakah kita berkompromi di tengah jalan antara - memperluas ke kasus Anda, berdasarkan rata-rata dari 11 siswa kelas? Nilai absolutlah yang penting, jadi mengetahui kedermawanan relatif tidak cukup.

Kesimpulan Anda mungkin bergantung pada seberapa "objektif" Anda merasakan tanda absolut final seharusnya. Satu model mental adalah mengusulkan setiap siswa memiliki nilai "benar" - nilai yang akan diberikan oleh Penilai Utama jika mereka punya waktu untuk menandai setiap kertas secara individual - yang nilai yang diamati adalah perkiraan. Dalam model ini, nilai yang diamati perlu dikompensasi untuk kelas mereka, untuk membawa mereka sedekat mungkin ke kelas "benar" yang tidak teramati. Model lain mungkin bahwa semua penilaian bersifat subyektif, dan kami berusaha untuk mengubah setiap nilai yang diamati ke nilai yang kami perkirakan akan diberikan jika semua siswa menilai kertas yang sama dan mencapai semacam kompromi atau nilai rata-rata untuknya. Saya menemukan model kedua kurang meyakinkan sebagai solusi bahkan jika pengakuan subjektivitas lebih realistis. Dalam lingkungan pendidikan biasanya ada seseorang yang memikul tanggung jawab utama untuk penilaian, untuk memastikan bahwa siswa menerima "nilai yang pantas mereka dapatkan", tetapi peran utama ini pada dasarnya membebaskan tanggung jawab kepada siswa kelas yang sudah kita kenal sangat tidak setuju. Dari sini saya berasumsi di sanaadalah satu nilai "benar" yang kami perkirakan untuk ditaksir, tetapi ini adalah proposisi yang dapat diperebutkan dan mungkin tidak sesuai dengan keadaan Anda.

Misalkan siswa A, B, C dan D, semuanya dalam kohort yang sama, "harus" dinilai masing-masing 75, 80, 85 dan 90 tetapi siswa mereka yang murah hati secara konsisten menandai 5 nilai terlalu tinggi. Kami mengamati 80, 85, 90 dan 95 dan harus mengurangi 5, tetapi menemukan angka untuk mengurangi itu bermasalah. Itu tidak dapat dilakukan dengan membandingkan hasil antara kohort karena kami berharap kohort bervariasi dalam kemampuan rata-rata. Salah satu kemungkinan adalah menggunakan hasil tes pilihan ganda untuk memprediksi skor yang benar pada tugas kedua, kemudian gunakan ini untuk menilai variasi antara setiap kelas dan nilai yang benar. Tetapi membuat prediksi ini tidak sepele - jika Anda mengharapkan perbedaan mean dan standar deviasi antara kedua penilaian, Anda tidak bisa hanya berasumsi bahwa nilai penilaian kedua harus cocok dengan yang pertama.

Juga, siswa berbeda dalam bakat relatif pada penilaian pilihan ganda dan tertulis. Anda bisa memperlakukan itu sebagai semacam efek acak, membentuk komponen nilai "diamati" dan "benar" siswa, tetapi tidak ditangkap oleh nilai "prediksi" mereka. Jika kohort berbeda secara sistematis dan siswa dalam kohort cenderung serupa, maka kita seharusnya tidak mengharapkan efek ini rata-rata menjadi nol dalam setiap kohort. Jika sebuah kohort mengamati nilai rata-rata +5 versus yang diprediksi, tidak mungkinuntuk menentukan apakah ini disebabkan oleh seorang siswa kelas yang murah hati, suatu kelompok yang secara khusus lebih cocok untuk penilaian tertulis daripada pilihan ganda, atau kombinasi keduanya. Dalam kasus yang ekstrim, kohort bahkan mungkin memiliki bakat yang lebih rendah pada penilaian kedua tetapi memiliki ini lebih dari dikompensasi oleh siswa kelas yang sangat murah hati - atau sebaliknya. Anda tidak dapat memisahkan ini. Itu membingungkan.

Saya juga meragukan kecukupan model aditif sederhana untuk data Anda. Grader mungkin berbeda dari Lead Assessor tidak hanya berdasarkan pergeseran lokasi, tetapi juga penyebaran - meskipun karena kohort cenderung berbeda dalam homogenitas, Anda tidak bisa hanya memeriksa penyebaran nilai yang diamati di setiap kohort untuk mendeteksi hal ini. Selain itu, sebagian besar distribusi memiliki skor tinggi, cukup dekat maksimum teoretis 100. Saya mengantisipasi ini memperkenalkan non-linearitas karena kompresi mendekati maksimum - grader yang sangat murah hati dapat memberikan tanda A, B, C dan D seperti 85, 90, 94, 97. Ini lebih sulit untuk dibalikkan daripada hanya mengurangkan konstanta. Lebih buruk lagi, Anda mungkin melihat "kliping" - siswa kelas yang sangat dermawan dapat menilai mereka sebagai 90, 95, 100, 100. Ini tidak mungkinuntuk membalikkan, dan informasi tentang kinerja relatif C dan D hilang secara tak terpulihkan.

Siswa kelas Anda berperilaku sangat berbeda. Apakah Anda yakin mereka berbeda hanya dalam kemurahan hati mereka secara keseluruhan, daripada dalam kemurahan hati mereka dalam berbagai komponen penilaian? Ini mungkin layak untuk diperiksa, karena dapat menimbulkan berbagai komplikasi - misalnya tingkat yang diamati untuk B mungkin lebih buruk daripada A, meskipun B menjadi 5 poin "lebih baik", bahkan jika tanda yang dialokasikan grader untuk setiap komponen adalah fungsi yang meningkat secara monoton dari Assessor Utama! Misalkan penilaian dibagi antara Q1 (A harus skor 30/50, B 45/50) dan Q2 (A harus skor 45/50, B 35/50). Bayangkan gradernya sangat lunak pada Q1 (nilai yang diamati: A 40/50, B 50/50) tetapi keras pada Q2 (diamati: A 42/50, 30/50), maka kita amati total 82 untuk A dan 80 untuk B. Jika Anda harus mempertimbangkan skor komponen,

Bisa dibilang ini adalah komentar yang diperluas daripada jawaban, dalam arti itu tidak mengusulkan solusi tertentu dalam batas-batas asli masalah Anda. Tetapi jika siswa Anda sudah menangani masing-masing sekitar 55 makalah, apakah sangat buruk bagi mereka untuk melihat lima atau sepuluh lagi untuk tujuan kalibrasi? Anda sudah memiliki gagasan yang bagus tentang kemampuan siswa, sehingga dapat memilih sampel kertas dari berbagai kelas. Anda kemudian dapat menilai apakah Anda perlu mengkompensasi kemurahan hati grader di seluruh tes atau di setiap komponen, dan apakah akan melakukannya hanya dengan menambahkan / mengurangi konstanta atau dengan sesuatu yang lebih canggih seperti interpolasi (misalnya jika Anda khawatir tentang non- linearitas mendekati 100). Tapi satu kata peringatan tentang interpolasi: misalkan Penilai Utama menandai lima makalah sampel sebagai 70, 75, 80, 85 dan 90, sementara grader menandai mereka sebagai 80, 88, 84, 93 dan 96 sehingga ada beberapa ketidaksepakatan tentang ketertiban. Anda mungkin ingin memetakan nilai yang diamati dari 96 hingga 100 ke interval 90 hingga 100, dan nilai yang diamati dari 93 hingga 96 ke interval 85 hingga 90. Tetapi beberapa pemikiran diperlukan untuk tanda di bawahnya. Mungkin nilai yang diamati dari 84 hingga 93 harus dipetakan ke interval 75 hingga 85? Alternatif adalah regresi (mungkin polinomial) untuk mendapatkan formula untuk "prediksi nilai sebenarnya" dari "nilai yang diamati". Mungkin nilai yang diamati dari 84 hingga 93 harus dipetakan ke interval 75 hingga 85? Alternatif adalah regresi (mungkin polinomial) untuk mendapatkan formula untuk "prediksi nilai sebenarnya" dari "nilai yang diamati". Mungkin nilai yang diamati dari 84 hingga 93 harus dipetakan ke interval 75 hingga 85? Alternatif adalah regresi (mungkin polinomial) untuk mendapatkan formula untuk "prediksi nilai sebenarnya" dari "nilai yang diamati".

— Gegat
sumber

1

Sayangnya sifat penilaian 2 membuat siswa tidak mungkin melihat lebih banyak untuk tujuan kalibrasi. Anda bisa menganggapnya seperti pembacaan puisi lisan yang dilakukan sekali tanpa rekaman, dan yang dinilai segera setelahnya. Tidak praktis untuk menjadwalkan pelafalan baru semata-mata untuk tujuan kalibrasi. Untuk menjawab pertanyaan Anda yang lain, Penilaian 2 tidak benar-benar memiliki subkomponen yang jelas, dan kami tidak perlu mempertimbangkan skor komponen.

— user1205901

1

Ini "bukan jawaban" tetapi di dunia yang ideal saya akan menyarankan untuk membalikkan keadaan dan menggunakan contoh sampel (mungkin tugas buatan yang sengaja dirancang untuk berada di batas kelas, bukan oleh siswa sungguhan) sebagai cara pelatihan siswa kelas memiliki kemurahan hati yang sama, daripada menyimpulkan dan mengimbangi kemurahan hati mereka. Namun, jika penilaian dilakukan, ini jelas bukan solusi untuk Anda.

— Silverfish

1

(+1) Sangat menyeluruh "bukan jawaban". Konsistensi dalam tes yang agak subyektif seringkali dapat sangat ditingkatkan dengan membagi tugas penilaian menjadi komponen - jika tidak satu siswa kelas mungkin memberikan bobot lebih untuk irama, yang lain untuk proyeksi, & c.

— Scortchi

Jelas bahwa selain mengajukan kemungkinan penyesuaian kepada orang yang pada akhirnya akan memutuskan masalah, saya juga perlu menyerahkan beberapa penjelasan tentang pro dan kontra penyesuaian. Respons Anda memberikan banyak materi bermanfaat mengenai hal ini. Namun, saya bertanya-tanya kriteria apa yang dapat saya gunakan untuk membuat keputusan apakah lebih menguntungkan meninggalkan semuanya sendirian, atau membuat perubahan. Saya melihat nilai kohort dan intuisi saya mengatakan bahwa perbedaan antara marker adalah yang memiliki dampak besar. Intuisi tidak bisa diandalkan, tetapi saya tidak yakin apa lagi yang bisa saya lakukan dalam kasus ini.

— user1205901

2

Satu pertanyaan adalah apakah Anda memiliki alasan yang masuk akal untuk percaya bahwa efek "kecakapan tugas diferensial" menjadi kecil, terutama ketika dirata-rata berdasarkan kohort, dibandingkan dengan efek "kemurahan hati tingkat". Jika demikian, Anda mungkin mencoba memperkirakan efek kedermawanan untuk setiap kelompok - tetapi Anda berisiko dikacaukan. Selain itu, ada Catch 22. Saya akan paling berhati-hati menerapkan "koreksi" besar untuk nilai yang diamati. Tetapi jika koreksi yang disarankan kecil, itu masuk akal karena perbedaan sistematis dalam kemampuan tugas diferensial antara kohort, bukan kemurahan hati grader sama sekali.

— Silverfish

2

Model yang sangat sederhana:

$s_{1,i}$ $i$ $s_{2,i}$ $A_1, \ldots, A_p$ menjadi partisi siswa dalam kohort asli.

Setiap kelompok bias oleh kekuatan siswa dan kemudahan siswa. Dengan asumsi ini adalah efek aditif, kami mundur dengan cara berikut: kami akan mengurangi skor rata-rata kohort pada tes pertama, dan menambahkan skor rata-rata kohort pada tes kedua.

$s'_1$

\forall j \leq p, \forall i \in A_{j}, s_{1, i}^{'} = s_{1, i} - \frac{1}{| A_{j} |} \sum_{i \in A_{j}} (s_{1, i} - s_{2, i})

$\forall j \leq p, \forall i \in A_j, s'_{1,i} = s_{1,i} - \frac{1}{|A_j|} \sum_{i \in A_j} ( s_{1,i} - s_{2,i} )$

$s$

\forall i, s_{i} = α s_{1, i}^{'} + (1 - α) s_{2, i}

$\forall i, s_i = \alpha s'_{1,i} + (1-\alpha) s_{2,i}$

Kelemahannya adalah bahwa seorang siswa dapat dihukum jika orang-orang dalam kelompoknya kebetulan beruntung pada tes kedua. Tetapi teknik statistik apa pun akan membawa potensi penurunan yang tidak adil ini.

— Arthur B.
sumber

3

α

$\alpha$

1

Tidak - kohort tidak dipilih secara acak.

— Scortchi

1

... yang, seperti yang dikatakan @whuber, dikacaukan dengan kecenderungan yang melekat pada kohort (karena usia atau apa pun) untuk melakukan relatif lebih baik pada satu jenis tes daripada yang lain.

— Scortchi

2

Anda tidak dapat menghilangkan kebingungan dengan mengambil kelompok yang lebih besar! Paling-paling Anda dapat membuat estimasi yang lebih tepat dari nilai-nilai yang tidak dapat diinterpretasikan.

— whuber

3

Masuk akal, mungkin: tetapi tidak dapat diuji mengingat informasi yang tersedia untuk OP. Validitas jawaban Anda bergantung pada kebenaran asumsi tersirat ini. Lebih buruk lagi, negasinya (yang tentu saja juga tidak dapat diuji) juga sangat masuk akal: karena kohort dipilih sendiri, mereka mungkin terdiri dari orang-orang yang berprestasi dengan cara yang sama pada instrumen penilaian yang berbeda, yang menunjukkan bahwa sebenarnya mungkin ada kemungkinan keberhasilan yang berbeda akan sebagian karena kohort dan hanya sebagian karena variabilitas di antara siswa kelas.

— whuber

1

Kamu tidak bisa Setidaknya, bukan tanpa mengumpulkan data tambahan. Untuk mengetahui alasannya, baca banyak komentar terunggah di @ whuber di sepanjang utas ini.

— Jake Westfall
sumber

0

Edit

Masalah yang dipecahkan dalam jawaban ini adalah menemukan siswa kelas yang kurang memberikan poin kepada siswa yang tidak mereka sukai.

Pos asli

Pendekatan saya, yang menurut saya mudah diimplementasikan, adalah sebagai berikut:

$\mu_{k, i}$ $k$ $i$ $y_{k, i}$ menyatakan nilai untuk tugas kedua.

1

Asumsikan model

$y_{k, i} = \mu_{k, i} + \alpha + \tau e_{k, i}$ $\alpha$ $\alpha$ $i$ $\alpha$

2

$G_i$ $i$ $\tilde{y}_{k, i}$ dan asumsikan model

$y_{k, i} - \mu_{k, i} - \alpha = \tilde{y}_{k, i} = G_i + \sigma_i \tilde{e}_{k, i}$

Dan lakukan 11 estimasi individu $G$ dan $\sigma$

3

Sekarang pengamatan yang tidak biasa adalah sedemikian rupa sehingga jumlahnya

$T = \vert \frac{\tilde{y} - G_i}{\sigma_i} \vert$ besar. Pilih jumlah terbesar untuk setiap kelompok dan selidiki.

Catatan

Semua $e$ Diasumsikan sebagai Gaussian. Nilai tidak terdistribusi secara normal sehingga pedoman ukuran $T$ sulit untuk diberikan.

Kode-R

Di bawah ini adalah kode dalam R. Perhatikan bahwa dalam kasus Anda, baik mu dan y akan diberikan sehingga baris yang menghasilkan ketika mereka ditugaskan rnorm-angka harus diabaikan. Saya memasukkan mereka untuk dapat mengevaluasi naskah tanpa data.

mu_0 <- 50; 
alpha <- 5;
tau<- 10; 
# 0 Generate data for first assignment
mu <- matrix(rnorm(605, mu_0, tau), 11) 

# 1 Generate data for second assignment and estimate alpha
G <- rnorm(11, 0)*10;
for(i in 1:11){
    y[i,] <- rnorm(55, 0, sigma) + mu[i,] + alpha + G[i];
}

alpha_hat <- mean(y-mu)
alpha_hat

# 2 Form \tilde{y} and find unsual observations
ytilde <- y - mu - alpha_hat
T <- matrix(0, 11, 55);
for(i in 1:11){
    G_hat <- mean(ytilde[i,]);
    sigma_hat <- sd(ytilde[i,]);
    T[i,] <- order(abs(ytilde[i,] - G_hat)/sigma_hat)
}
# 3 Look at grader number 2 by
T[2,]

— Hunaphu
sumber

4

Anda sepertinya tidak menjawab pertanyaan: Anda hanya mengakhiri dengan rekomendasi untuk menyelidiki "pengamatan yang tidak biasa." Bagaimana cara mengatasi masalah?

— whuber

Membaca pertanyaan itu lagi, mungkin saya terlalu fokus pada bagian "individu". Masalah yang dipecahkan dalam jawaban ini adalah masalah menemukan siswa kelas yang kurang memberikan poin kepada siswa yang tidak mereka sukai. Pertanyaan aslinya tidak mungkin (!) Untuk dipecahkan. Seperti yang sudah disarankan, sangat mungkin bahwa siswa berkolaborasi atau berkorelasi kuat dalam setiap kelompok.

— Hunaphu

0

Mengulang masalah: Cara terbaik untuk mendekati menetapkan tanda dua bagian ujian dengan ketentuan yang mengharuskan bagian kedua terkena ketidakpastian yang lebih besar karena berbagai penilaian kualitatif Penanda Delegasi.

Di mana: Master Tester = orang yang bertanggung jawab untuk ujian Delegated Tester = orang (1 dari 11) yang ditugaskan untuk menandai par # 2 dari ujian Siswa = pria yang bersenang-senang duduk ujian

Sasaran meliputi: A) Siswa menerima tanda yang mencerminkan pekerjaan mereka B) Mengelola ketidakpastian bagian kedua untuk menyelaraskan dengan maksud Master Tester

Pendekatan yang disarankan (jawaban): 1. Master Tester secara acak memilih satu set sampel yang representatif dari ujian, menandai bagian # 2 dan mengembangkan korelasi dengan bagian # 1 2. Memanfaatkan korelasi untuk menilai semua data Penanda Delegasi (Bagian # 1 vs skor # 2) 3. Di mana korelasi secara signifikan berbeda dari Master Tester - signifikansi yang dapat diterima oleh Master Tester - periksa ujian sebagai Master Tester untuk menetapkan kembali hasilnya.

Pendekatan ini memastikan bahwa Master Tester bertanggung jawab atas korelasi dan signifikansi yang dapat diterima. Korelasi dapat sesederhana skor untuk bagian # 1 vs # 2 atau skor relatif untuk pertanyaan tes # 1 vs # 2.

Master Tester juga akan dapat menetapkan kualitas hasil untuk Bagian # 2 berdasarkan "karet-ness" dari korelasi.

— MarkR
sumber

Bagaimana saya bisa menangani efek spidol dengan tingkat kemurahan hati yang berbeda dalam menilai makalah siswa?

Edit

Pos asli

1

2

3

Catatan

Kode-R