Mengapa tidak semua tes mendapat skor melalui analisis item / teori respons?

8

Apakah ada alasan statistik mengapa analisis item / teori respons tidak diterapkan secara lebih luas? Misalnya, jika seorang guru memberikan tes soal pilihan ganda 25 pertanyaan dan menemukan bahwa 10 pertanyaan dijawab dengan benar oleh semua orang, 10 pertanyaan dijawab oleh fraksi yang sangat rendah (katakanlah 10%) dan 5 sisanya dijawab oleh sekitar 50% orang . Tidakkah masuk akal untuk menilai ulang skor sehingga pertanyaan-pertanyaan sulit diberi bobot lebih?

Namun, di dunia nyata tes hampir selalu memiliki semua pertanyaan yang terbobot sama. Mengapa?

Tautan di bawah ini membahas indeks diskriminasi dan ukuran kesulitan lain untuk memilih pertanyaan mana yang terbaik: http://fcit.usf.edu/assessment/selected/responsec.html

Namun tampaknya metode mencari tahu indeks diskriminasi pertanyaan hanya digunakan dengan cara berwawasan ke depan (mis., Jika sebuah pertanyaan tidak mendiskriminasi dengan baik, lemparlah). Mengapa tes tidak ditimbang ulang untuk populasi saat ini?

teaching psychometrics latent-variable

— d_a_c321
sumber

7

(Anda bertanya apakah ada alasan statistik: Saya ragu, tapi saya menebak alasan lain.) Apakah akan ada teriakan "memindahkan tiang gawang"? Siswa biasanya ingin tahu ketika mengikuti tes berapa nilai setiap item. Mereka mungkin dibenarkan untuk mengeluh setelah melihat, misalnya, bahwa beberapa jawaban mereka yang bekerja keras tidak banyak berarti.

Banyak guru dan profesor menggunakan kriteria subyektif yang tidak sistematis, untuk menilai skor. Tetapi mereka yang memang menggunakan sistem mungkin khawatir tentang membuka sistem itu untuk kritik tertentu - sesuatu yang sebagian besar dapat mereka hindari jika bersembunyi di balik pendekatan yang lebih subjektif. Itu mungkin menjelaskan mengapa analisis barang dan IRT tidak digunakan secara lebih luas daripada yang mereka lakukan.

— rolando2
sumber

1

+1, saya berharap banyak guru dan profesor juga tidak terbiasa dengan IRT.

— gung - Reinstate Monica

Benar! Alasan non-statistik lainnya. Saya menemukan bahwa pendidikan guru di negara ini sedemikian rupa sehingga banyak yang mengajar menerima sedikit atau tidak ada pelatihan penilaian. Dan kemudian ada peneliti dan perancang tes yang terlatih dalam penilaian yang memiliki sedikit atau tidak ada pelatihan dalam metode pengajaran.

— rolando2

1

@ rolando2 - Saya malu sebagai ekonom bahwa pemikiran tentang insentif ex-ante atau sambil-mengambil-tes tidak terjadi pada saya. Jika peserta tes berurusan dengan target bergerak dan tidak tahu bagaimana menghabiskan waktu dan upaya mereka secara rasional untuk menjawab setiap pertanyaan, itu mungkin bisa memiliki beberapa efek yang benar-benar buruk!

— d_a_c321

Saya mengerti bagaimana hal itu dapat membuat mereka tidak puas, tetapi apa efek "sesat" yang Anda pikirkan?

— rolando2

6

Argumen pertama berkaitan dengan transparansi. @ rolando2 telah membuat poin ini. Para siswa ingin tahu ex-ante berapa nilai setiap item.

Argumen kedua adalah bahwa bobot tidak hanya mencerminkan tingkat kesulitan suatu pertanyaan, tetapi juga tingkat kepentingan yang dilampirkan oleh instruktur pada suatu pertanyaan. Memang, tujuan ujian adalah menguji dan mensertifikasi pengetahuan dan kompetensi. Dengan demikian, bobot yang dikaitkan dengan berbagai pertanyaan dan item harus ditetapkan sebelumnya oleh guru. Anda tidak boleh lupa bahwa "semua model salah, dan hanya beberapa yang berguna". Dalam hal ini seseorang dapat memiliki keraguan tentang kegunaannya.

Ini dikatakan, saya pikir analisis statistik (kurang lebih mewah) bisa datang di ex-post, untuk analisis hasil. Di sana dapat menghasilkan beberapa wawasan yang menarik. Sekarang, jika ini dilakukan dan sampai sejauh mana hal itu dilakukan, tentu tergantung pada keterampilan statistik guru.

— Komunitas
sumber

2

Benar! Sebagai seorang instruktur, apa yang saya cari bukanlah rangking relatif dari para siswa - melainkan ukuran absolut dari pemahaman dan keterampilan. Saya akan sempurna terjadi (senang, bahkan), jika ternyata semua orang di kelas diukur memiliki pemahaman 100% dari subjek yang saya ajarkan. Jadi, bobot pada pertanyaan dipilih untuk mencerminkan kepentingannya dan berapa banyak bobot yang harus mereka miliki dalam penilaian keseluruhan pemahaman subjek.

— DW

2

Saya ingin membuat klarifikasi mengenai pertanyaan awal. Dalam teori respons item, diskriminasi (yaitu kemiringan item atau pemuatan faktor) tidak mengindikasikan kesulitan. Menggunakan model yang memungkinkan adanya beragam diskriminasi untuk setiap item secara efektif memberi bobot pada mereka berdasarkan estimasi korelasi mereka terhadap variabel laten, bukan oleh kesulitannya.

Dengan kata lain, item yang lebih sulit dapat dibobot jika diperkirakan cukup tidak berkorelasi dengan dimensi bunga dan sebaliknya, item yang lebih mudah dapat dibobot jika diperkirakan sangat berkorelasi.

Saya setuju dengan jawaban sebelumnya yang menunjuk ke (a) kurangnya kesadaran akan metode respons item di antara praktisi, (b) fakta bahwa menggunakan model ini memerlukan beberapa keahlian teknis bahkan jika seseorang menyadari keunggulan mereka (khususnya kemampuan mengevaluasi sesuai dengan model pengukuran), (c) ekspektasi siswa sebagaimana ditunjukkan oleh @ rolando2, dan yang terakhir (paling tidak) pertimbangan teoritis yang mungkin dimiliki instruktur untuk menimbang item yang berbeda secara berbeda. Namun, saya memang ingin menyebutkan bahwa:

Tidak semua model teori respons item memungkinkan variasi parameter diskriminasi, di mana model Rasch mungkin merupakan contoh paling terkenal dari model di mana diskriminasi di seluruh item dijaga konstan. Di bawah model keluarga Rasch, skor penjumlahan adalah statistik yang cukup untuk skor respons barang, oleh karena itu, tidak akan ada perbedaan dalam urutan responden, dan satu-satunya perbedaan praktis akan dihargai jika 'jarak' antara skor kelompok dipertimbangkan.
Ada peneliti yang membela penggunaan teori tes klasik (yang bergantung pada penggunaan skor skor tradisional atau rata-rata yang benar) untuk alasan teoretis dan empiris. Mungkin argumen yang paling sering digunakan adalah fakta bahwa skor yang dihasilkan di bawah teori respons item secara efektif sangat mirip dengan yang dihasilkan di bawah teori tes klasik. Lihat misalnya karya Xu & Stone (2011), Menggunakan Perkiraan IRT Trait versus Skor yang Diringkas dalam Memprediksi Hasil , Pendidikan dan Pengukuran Psikologis , di mana mereka melaporkan korelasi lebih dari 0,97 di bawah beragam kondisi.

— David
sumber

(+1) Paragraf pertama dimasukkan dengan sangat baik. Tentang poin 2, saya entah bagaimana melewatkan artikel ini, jadi terima kasih telah berbagi! Dari catatan, korelasi besarnya sebanding akan diamati dengan model analisis faktor tradisional (di mana memuat meniru parameter diskriminasi - di bawah kerangka CTT, itu akan menjadi koefisien korelasi titik-biserial) asalkan kesulitan item didistribusikan secara seragam pada sifat laten ( yaitu, tidak ada barang yang terlalu sulit atau terlalu mudah).

— chl

1

Tidakkah skor siswa harus didasarkan pada apa yang mereka ketahui dan jawab dalam ujian daripada apa yang dilakukan orang lain di kelas?

Jika Anda memberikan tes yang sama 2 tahun yang berbeda dan Anda memiliki 2 siswa (masing-masing 1) yang menjawab pertanyaan yang sama persis dengan benar (tanpa curang), apakah masuk akal jika mereka akan menerima nilai yang berbeda berdasarkan pada seberapa banyak siswa lain di kelas mereka belajar?

Dan secara pribadi, saya tidak ingin memberikan motivasi kepada siswa untuk menyemangati teman-teman sekelasnya untuk mempelajari materi itu sendiri.

IRT dapat memberikan beberapa wawasan tentang tes, tetapi saya tidak akan menggunakannya untuk secara aktif menimbang skor.

Ketika saya memikirkan bobot, saya berpikir bahwa seseorang harus mendapatkan poin lebih banyak untuk mendapatkan pertanyaan sulit yang benar, tetapi mereka harus kehilangan lebih banyak poin untuk mendapatkan pertanyaan mudah salah. Kombinasikan itu dan Anda masih berakhir dengan bobot yang sama. Atau saya benar-benar mencoba menghitung berdasarkan waktu atau upaya yang diperlukan untuk menjawab pertanyaan, sehingga seseorang yang menjawab pertanyaan dalam urutan yang berbeda tidak memiliki keunggulan pada tes waktunya.

— Greg Snow
sumber

Organisasi pengujian besar yang menggunakan IRT juga harus khawatir tentang konsistensi antara penawaran tes. Konsistensi variabel laten adalah penting tetapi dapat dicapai.

— D Coetzee