Bagaimana cara memulai dengan menerapkan teori respons barang dan perangkat lunak apa yang digunakan?


21

Konteks

Saya telah membaca tentang teori respons barang, dan menurut saya itu menarik. Saya percaya saya memahami dasar-dasarnya, tetapi saya bertanya-tanya bagaimana cara menerapkan teknik statistik yang terkait dengan daerah tersebut. Di bawah ini adalah dua artikel yang mirip dengan bidang saya ingin menerapkan ITR di:

Yang kedua adalah yang ingin saya sampaikan pada saat ini.

Saya telah mengunduh program gratis yang disebut jMetrik, dan tampaknya berfungsi dengan baik. Saya pikir itu mungkin terlalu mendasar sejauh IRT berjalan, tetapi saya tidak yakin.

Saya tahu cara "terbaik" kemungkinan akan melibatkan belajar R; Namun, saya tidak tahu apakah saya bisa meluangkan waktu untuk mengatasi kurva belajar itu. Perhatikan bahwa kami memiliki dana untuk membeli perangkat lunak, tetapi dari apa yang saya lihat, tampaknya tidak ada program IRT yang bagus di luar sana.

Pertanyaan

  • Apa pendapat Anda tentang efektivitas jMetrik?
  • Bagaimana Anda menyarankan saya maju dalam menerapkan IRT?
  • Apa program terbaik untuk menerapkan IRT?
  • Apakah ada di antara Anda yang menggunakan IRT secara teratur? Jika ya, bagaimana caranya?

1
perangkat lunak apa yang saat ini Anda gunakan?
Tugas

Saya telah menggunakan jMetrik. Sepertinya baru dan telah melakukan banyak hal yang saya minati!
Behacad

2
Apakah itu berfungsi dalam mode skrip? Jika Anda hanya memiliki GUI, maka hasil Anda akan sangat sulit direproduksi. Mode skrip adalah suatu keharusan untuk setiap perangkat lunak yang serius.
Tugas

Jawaban:


22

Sebagai pemula yang baik untuk IRT, saya selalu merekomendasikan membaca Panduan visual untuk teori respons item .

Survei perangkat lunak yang tersedia dapat ditemukan di www.rasch.org .

Dari pengalaman saya, saya menemukan perintah Stata Raschtest (dan terkait) sangat berguna dalam banyak kasus di mana orang tertarik untuk memasang model satu-parameter. Untuk desain yang lebih kompleks, seseorang dapat menggunakan GLLAMM ; ada contoh kerja yang bagus berdasarkan buku De Boeck dan Wilson, Explanatory Item and Response Models (Springer, 2004).

Tentang R secara khusus, ada banyak paket yang telah tersedia dalam lima tahun terakhir, lihat misalnya Tampilan Tugas CRAN terkait . Kebanyakan dari mereka yang dibahas dalam edisi khusus dari Journal of Software statistik (vol. 20, 2007). Sebagaimana dibahas dalam menanggapi lain, ltm dan erm memungkinkan untuk menyesuaikan berbagai model IRT. Karena mereka bergantung pada metode estimasi yang berbeda --- ltmmenggunakan pendekatan marginal sambil eRmmenggunakan pendekatan kondisional --- memilih satu atau yang lain terutama masalah model yang ingin Anda paskan (eRm tidak cocok dengan model 2- atau 3-parameter) dan tujuan pengukuran yang Anda ikuti: estimasi bersyarat dari parameter orang memiliki beberapa sifat psikometrik yang bagus sementara pendekatan marjinal memungkinkan Anda dengan mudah beralih ke model efek-campuran, seperti dibahas dalam dua makalah berikut :

Ada juga beberapa kemungkinan untuk menyesuaikan model Rasch menggunakan metode MCMC, lihat misalnya MCMCpack paket (atau WinBUGS / Jags , tapi lihat BUGS Kode untuk Item Response Theory , JSS (2010) 36).

Saya tidak punya pengalaman dengan SAS untuk pemodelan IRT, jadi saya akan membiarkan itu untuk seseorang yang lebih berpengalaman dalam pemrograman SAS.

Perangkat lunak khusus lainnya (kebanyakan digunakan dalam penilaian pendidikan) meliputi: RUMM, Penaklukan, Winsteps, BILOG / MULTILOG, Mplus (tidak mengutip daftar yang sudah tersedia di wikipedia ). Tidak ada yang gratis untuk digunakan, tetapi versi demonstrasi terbatas waktu diusulkan untuk beberapa di antaranya. Saya menemukan jMetrik sangat terbatas ketika saya mencobanya (satu tahun yang lalu), dan semua fungsi sudah tersedia di R. Demikian juga, ConstructMap dapat dengan aman diganti oleh lme4 , seperti yang diilustrasikan dalam selebaran yang terhubung di atas. Saya juga harus menyebutkanmdltm (Model Multidimensional Discrete Latent Trait Model) untuk model campuran Rasch, oleh von Davier dan coll., Yang seharusnya menyertai buku iniModel Rasch Distribusi Multivariat dan Campuran (Springer, 2007).


Fantastis! Terima kasih atas jawaban yang sangat komprehensif! Kedua jawaban ini akan membantu saya dengan baik, serta siapa pun yang ingin tahu dalam mengejar bidang ini saya yakin. Saya sarankan Anda melihat jMetrik lagi, dan mungkin beri saya pikiran Anda. Ini memiliki pemodelan Rasch sekarang, kurva ICC, beberapa kurva IRT, menyamakan IRT (1PT, 2PT, model 3PT), dan banyak lagi.
Behacad

Saya akan melihat versi yang diperbarui. Tapi, jujur, apa yang dikatakan @Stask layak untuk diingat jika Anda berencana untuk melakukan sesuatu yang serius di luar estimasi parameter dan pelaporan visual. Untuk mendapatkan ide dari apa yang saya maksud, lihat Pengantar teori psikometri dengan aplikasi di R . (Ini mencakup lebih dari apa yang oleh beberapa orang disebut psikometrik "modern".)
chl

@chi - Saya mendapat hasil yang sangat berbeda ketika saya menjalankan analisis IRT di R menggunakan ltm dibandingkan dengan ketika saya menjalankan analisis yang sama di Mplus dan kemudian di Multilog (sedangkan analisis di Mplus dan Multilog identik). Saya mencoba mencari tahu mengapa dengan penulis ltm, tetapi tidak menerima tanggapan. Sudahkah Anda mengalami pengalaman serupa dengan hasil yang berbeda dari paket perangkat lunak yang berbeda?
Tormod

ex5.5θhal-βsayasaya=1,...,khal=1,...,nβsaya-θhalyang dimodelkan, dan metode estimasi (kemungkinan marginal vs kondisional), dan untuk model parameter 2+ apakah ambang batas terpusat atau tidak.
chl

@chi - maaf atas keterlambatan respons, saya belum memperhatikan komentar Anda. Tidak tahu apakah ini masih relevan, tetapi saya mendapat perbedaan mulai dari 0,184 - 1,429 untuk parameter diskriminasi (a). Misalnya, Mplus memberi nilai a = 5.084 sedangkan ltm memberikan item yang sama nilai a = 3.655. Secara keseluruhan, ltm memberi nilai lebih kecil daripada mplus. (Menjalankan analisis yang sama di multilog memberi nilai yang sesuai dengan nilai a dari Mplus). B lebih mirip.
Tormod

8

Untuk pertanyaan pertama, saya tidak punya informasi tentang jMetrick.

Dalam menerapkan IRT, (seperti halnya prosedur statistik lainnya) langkah pertama adalah menggunakannya dengan sebanyak mungkin jenis data yang berbeda. Ada kurva belajar, tetapi saya percaya itu layak dilakukan.

Salah satu fitur penting dari IRT adalah diferensiasi antara model Rasch dan model IRT. Mereka dikembangkan oleh orang yang berbeda untuk tujuan yang berbeda. Yang sedang berkata, model IRT adalah superset dari model Rasch.

Model Rasch adalah salah satu model parameter - mereka menganggap bahwa semua item pada kuesioner sama prediktif dengan sifat laten.

Namun model IRT adalah dua model parameter yang memungkinkan pertanyaan berbeda dalam kemampuan mereka untuk memberikan informasi tentang kemampuan peserta.

Selain itu, ada tiga model parameter yang seperti model IRT, kecuali bahwa mereka memungkinkan parameter menebak untuk memperhitungkan kemampuan peserta untuk mendapatkan jawaban yang benar secara kebetulan (ini lebih merupakan perhatian dalam kemampuan daripada tes kepribadian).

Selain itu, ada IRT multidimensi yang memperkirakan berbagai kemampuan laten sekaligus. Saya tidak tahu banyak tentang ini, tetapi ini adalah area yang saya ingin pelajari lebih lanjut.

Ada juga perbedaan antara metode IRT dikotomis dan politit. Model Dichotomous IRT adalah yang digunakan dalam tes kemampuan, yang memiliki jawaban benar dan salah. Model IRT Polytomous digunakan dalam tes kepribadian, di mana ada beberapa jawaban, yang sama-sama benar (dalam arti tidak ada jawaban yang benar).

Saya pribadi menggunakan R untuk teori respons item. Ada dua paket utama yang saya gunakan, eRmyang hanya cocok untuk model Rasch, danltm yang cocok dengan model teori respons item (dua dan tiga model parameter). Keduanya memiliki fungsi serupa, dan keduanya menyediakan lebih banyak rutin untuk model IRT dikotomis. Saya tidak tahu apakah R adalah yang "terbaik" untuk IRT, ia tidak memiliki semua banyak model IRT yang tersedia, tetapi tentu saja yang paling dapat diperluas, karena seseorang dapat memprogram model-model ini dengan relatif mudah.

Saya menggunakan IRT hampir secara eksklusif untuk model polytomous, di R. Saya biasanya mulai dengan metode IRT non parametrik (disediakan dalam paket mokken) untuk menguji asumsi, dan kemudian melanjutkan dengan model rasch, menambahkan lebih banyak kerumitan yang diperlukan untuk mendapatkan kecocokan.

Untuk IRT multidimensi, ada paket `mirt ', yang menyediakan fungsionalitas ini. Saya belum menggunakannya jadi saya tidak bisa berkomentar.

Jika Anda menginstal paket-paket ini ke R, dan memanggil fungsi 'sketsa ("nama paket")' maka Anda harus mendapatkan beberapa sketsa yang berguna (pasti untuk eRmdan mokken, mungkin untuk yang lain) yang mungkin terbukti bermanfaat bagi Anda (tergantung pada tingkat Anda kecanggihan matematika).

Akhirnya, ada sejumlah buku bagus yang tersedia untuk model rasch dan irt. Teori respons barang untuk psikolog sering digunakan (meskipun saya tidak suka gaya), dan lebih jauh ke atas rantai kecanggihan teknis, ada dua buku teks yang sangat komprehensif dan berguna - Buku Pegangan Teori Respons Item Modern dan Model Rasch: Yayasan, Terbaru Perkembangan dan Aplikasi .

Saya harap ini membantu.


Terima kasih! Itu sangat dihargai. Saya juga ingin mendengar lebih banyak tentang opsi perangkat lunak jika seseorang memiliki pengetahuan di bidangnya.
Behacad

3

jMetrik lebih kuat dari yang Anda kira. Ini dirancang untuk pekerjaan operasional di mana peneliti memerlukan banyak prosedur dalam satu kerangka kerja tunggal. Saat ini Anda dapat memperkirakan parameter IRT untuk model Rasch, kredit parsial dan skala peringkat. Ini juga memungkinkan untuk menghubungkan skala IRT melalui Stocking-Lord, Haebara dan metode lainnya. Karena termasuk basis data terintegrasi, output dari estimasi IRT dapat digunakan dalam penghubungan skala tanpa perlu membentuk kembali file data. Selain itu, semua output dapat disimpan dalam database untuk digunakan dengan metode lain di jMetrik atau program eksternal seperti R.

Anda juga dapat menjalankannya dengan skrip alih-alih GUI. Misalnya, kode berikut akan (a) mengimpor data ke dalam basis data, (b) menilai item dengan kunci jawaban, (c) memperkirakan parameter model Rasch, dan (d) mengekspor data sebagai file CSV. Anda dapat menggunakan file hasil akhir sebagai input ke R untuk analisis lebih lanjut, atau Anda dapat menggunakan R untuk terhubung langsung ke database jMetrik dan bekerja dengan hasilnya.

#import data into database
import{
     delimiter(comma);
     header(included);
     options(display);
     description();
     file(C:/exam1-raw-data.txt);
     data(db = testdb1, table = EXAM1);
}

#conduct item scoring with the answer key
scoring{
     data(db = mydb, table = exam1);
     keys(4);
     key1(options=(A,B,C,D), scores=(1,0,0,0), variables=  (item1,item9,item12,item15,item19,item21,item22,item28,item29,item30,item34,item38,item42,item52,item55));
     key2(options=(A,B,C,D), scores=(0,1,0,0), variables=(item4,item6,item16,item18,item24,item26,item32,item33,item35,item43,item44,item47,item50,item54));
     key3(options=(A,B,C,D), scores=(0,0,1,0), variables=(item3,item5,item7,item11,item14,item20,item23,item25,item31,item40,item45,item48,item49,item53));
     key4(options=(A,B,C,D), scores=(0,0,0,1), variables=(item2,item8,item10,item13,item17,item27,item36,item37,item39,item41,item46,item51,item56));
}

#Run a Rasch models analysis.
#Item parameters saved as database table named exam1_rasch_output
#Residuals saved as a databse table named exam1_rasch_resid
#Person estimates saved to original data table. Person estimate in variable called "theta"
rasch{
     center(items);
     missing(ignore);
     person(rsave, pfit, psave);
     item(isave);
     adjust(0.3);
     itemout(EXAM1_RASCH_OUTPUT);
     residout(EXAM1_RASCH_RESID);
     variables(item1, item2, item3, item4, item5, item6, item7, item8, item9, item10, item11, item12, item13, item14, item15, item16, item17, item18, item19, item20, item21, item22, item23, item24, item25, item26, item27, item28, item29, item30, item31, item32, item33, item34, item35, item36, item37, item38, item39, item40, item41, item42, item43, item44, item45, item46, item47, item48, item49, item50, item51, item52, item53, item54, item55, item56);
     transform(scale = 1.0, precision = 4, intercept = 0.0);
     gupdate(maxiter = 150, converge = 0.005);
     data(db = testdb1, table = EXAM1);
}

#Export output table for use in another program like R
export{
     delimiter(comma);
     header(included);
     options();
     file(C:/EXAM1_RASCH_OUTPUT.txt);
     data(db = testdb1, table = EXAM1_RASCH_OUTPUT);
}

Perangkat lunak ini masih dalam tahap awal pengembangan. Saat ini saya menambahkan analisis faktor eksplorasi dan model respons item yang lebih canggih. Tidak seperti banyak program IRT lainnya, jMetrik adalah open source. semua prosedur pengukuran menggunakan pustaka psikometrik yang saat ini tersedia di GitHub, https://github.com/meyerjp3/psychometrics . Siapa pun yang tertarik untuk berkontribusi disambut.


0

Anda memiliki daftar pertanyaan yang cukup luas di sini, tetapi cukup relevan bagi banyak peneliti!

Saya sangat menyarankan Anda maju di IRT, tetapi hanya jika situasi Anda memenuhi persyaratan. Misalnya, ini cocok dengan jenis tes yang Anda gunakan, dan mungkin yang paling penting adalah Anda memiliki ukuran sampel yang diperlukan. Untuk data pilihan ganda dikotomis, saya merekomendasikan model 3PL (argumen Rasch tentang "pengukuran obyektif" sangat tidak menarik), dan 500-1000 umumnya ukuran sampel minimum. Data dikotomi tanpa menebak-nebak, seperti survei psikologis yang memiliki respons Y / N terhadap pernyataan, bekerja dengan baik dengan 2PL. Jika Anda memiliki skala penilaian atau data kredit parsial, ada model politis yang dirancang khusus untuk situasi tersebut.

IMHO, program terbaik untuk menerapkan IRT adalah Xcalibre. Ini relatif user-friendly (GUI sederhana serta beberapa tipe batch baris perintah jika Anda menginginkannya karena alasan tertentu) dan menghasilkan output yang sangat mudah dibaca (laporan MS Word dengan tabel dan gambar yang luas). Saya merekomendasikan untuk tidak menggunakan R karena alasan yang berlawanan. Kekurangannya, tentu saja, itu tidak gratis, tetapi Anda cenderung mendapatkan apa yang Anda bayar seperti yang mereka katakan. Deskripsi lengkap, contoh hasil, dan uji coba gratis tersedia di www.assess.com .


Apakah Anda ingin menguraikan mengapa argumen tentang "pengukuran obyektif" sensu Rasch (atau lebih tepatnya kemungkinan perbandingan objektif tertentu) "sangat tidak menarik"?
Momo

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.