Bagaimana cara mengurangi jumlah item menggunakan analisis faktor, konsistensi internal, dan teori respons item bersamaan?

Saya sedang dalam proses mengembangkan kuesioner secara empiris dan saya akan menggunakan angka acak untuk mengilustrasikannya. Untuk konteks, saya mengembangkan kuesioner psikologis yang bertujuan menilai pola pikir yang umumnya diidentifikasi pada individu yang memiliki gangguan kecemasan. Sebuah item bisa terlihat seperti "Saya perlu memeriksa oven berulang kali karena saya tidak bisa memastikannya mati ".

Saya memiliki 20 pertanyaan (Likert 5 poin) yang dapat terdiri dari satu atau dua faktor (perhatikan bahwa pada kenyataannya saya memiliki lebih dekat dengan 200 pertanyaan, terdiri dari 10 skala, dan setiap skala dapat terdiri dari dua faktor). Saya bersedia menghapus sekitar setengah item, meninggalkan 10 pertanyaan pada salah satu dari dua faktor.

Saya akrab dengan analisis faktor eksplorasi (EFA), konsistensi internal (alpha Cronbach), dan kurva karakteristik item dalam teori respons item (IRT). Saya dapat melihat bagaimana saya akan menggunakan salah satu metode ini untuk menentukan item mana yang "lebih buruk" dalam skala tunggal. Saya menghargai bahwa masing-masing metode juga menjawab pertanyaan yang berbeda, meskipun mereka mungkin mengarah pada hasil yang sama dan saya tidak yakin apa "pertanyaan" yang paling penting.

Sebelum kita mulai, mari kita pastikan saya tahu apa yang saya lakukan dengan masing-masing metode ini secara individual.

Dengan menggunakan EFA, saya akan mengidentifikasi jumlah faktor, dan menghapus item yang memuat paling sedikit (katakanlah <.30) pada faktor masing-masing atau lintas-beban secara substansial lintas faktor.
Dengan menggunakan konsistensi internal, saya akan menghapus item yang memiliki "alpha jika item dihapus" yang lebih buruk. Saya bisa melakukannya dengan asumsi satu faktor dalam skala saya, atau melakukannya setelah EFA awal untuk mengidentifikasi jumlah faktor dan kemudian menjalankan alpha saya untuk setiap faktor.
Menggunakan IRT, saya akan menghapus item yang tidak menilai faktor minat di sepanjang opsi respons (5 likert) mereka. Saya akan menjadi kurva karakteristik item eyeballing. Saya pada dasarnya akan mencari garis pada sudut 45 derajat mulai dari opsi 1 pada skala Likert hingga 5 sepanjang skor laten. Saya bisa melakukannya dengan asumsi satu faktor, atau melakukannya setelah
EFA awal untuk mengidentifikasi sejumlah faktor, dan kemudian menjalankan kurva untuk setiap faktor.

Saya tidak yakin metode mana yang digunakan untuk mengidentifikasi item mana yang "terburuk". Saya menggunakan yang terburuk dalam arti luas sehingga item tersebut akan merugikan ukuran, baik dalam hal keandalan atau validitas, yang keduanya sama pentingnya bagi saya. Mungkin saya bisa menggunakannya bersamaan, tapi saya tidak yakin bagaimana caranya.

Jika saya melanjutkan apa yang saya tahu sekarang dan memberikan yang terbaik, saya akan melakukan yang berikut:

Lakukan PUS untuk mengidentifikasi sejumlah faktor. Hapus juga item dengan beban buruk pada faktor mereka masing-masing, karena saya tidak ingin item yang memuat buruk terlepas dari bagaimana mereka akan lakukan dalam analisis lain.
Lakukan IRT dan hapus item buruk yang dinilai oleh analisis itu juga, jika ada yang tersisa dari EFA.
Cukup laporkan Cronbach's Alpha dan jangan gunakan metrik itu sebagai alat untuk menghapus item.

Pedoman umum apa pun akan sangat dihargai!

Berikut ini juga daftar pertanyaan spesifik yang mungkin dapat Anda jawab:

Apa perbedaan praktis antara menghapus item berdasarkan memuat faktor dan menghapus item berdasarkan alpha Chronbach (dengan asumsi Anda menggunakan tata letak faktor yang sama untuk kedua analisis)?
Yang harus saya lakukan dulu? Dengan asumsi saya melakukan EFA dan IRT dengan satu faktor, dan keduanya mengidentifikasi item yang berbeda yang harus dihapus, analisis mana yang harus diprioritaskan?

Saya tidak sulit untuk melakukan semua analisis ini, meskipun saya akan melaporkan alpha Chronbach. Saya merasa seperti melakukan IRT saja akan meninggalkan sesuatu yang hilang, dan juga hanya untuk EFA.

— Behacad
sumber

Jika Anda memilih untuk mencapai validitas konstruk melalui FA, Anda tentu harus mulai dengan FA (setelah menyaring item dengan "buruk", misalnya distribusi yang terlalu miring). Keterlibatan Anda dengan FA akan menjadi kompleks dan berulang. Setelah membuang sebagian besar item "lemah", jalankan kembali FA, periksa indeks KMO, tingkat pemulihan korelasi, interpretabilitas faktor, periksa apakah lebih banyak item yang akan dihapus, lalu jalankan kembali

— ttnphns

Menggunakan Teori Tes Klasik dalam Kombinasi dengan Item Response Theory adalah bacaan yang baik.

— chl

Anda menghapus item dengan "alfa jika item yang dihapus" tertinggi bukan ...

Ini aneh! untuk pertanyaan dasar ini, kami tidak memiliki jawaban yang dikenal dalam 3 tahun.

— WhiteGirl

Jawaban:

Saya tidak punya kutipan, tapi inilah yang saya sarankan:

Zeroth: Jika memungkinkan, bagi data menjadi pelatihan dan set tes.

Pertama lakukan EFA. Lihatlah berbagai solusi untuk melihat mana yang masuk akal, berdasarkan pengetahuan Anda tentang pertanyaan. Anda harus melakukan ini sebelum alpha Cronbach, atau Anda tidak akan tahu item mana yang menjadi faktor. (Menjalankan alpha pada SEMUA item mungkin bukan ide yang baik).

Selanjutnya, jalankan alfa dan hapus item yang memiliki korelasi jauh lebih buruk daripada yang lain di setiap faktor. Saya tidak akan membuat cutoff sewenang-wenang, saya akan mencari yang jauh lebih rendah daripada yang lain. Lihat apakah menghapus itu masuk akal.

Terakhir, pilih item dengan berbagai level "kesulitan" dari IRT.

Kemudian, jika memungkinkan, ulangi ini pada set tes, tetapi tanpa melakukan eksplorasi. Yaitu, lihat seberapa baik hasil yang ditemukan pada set pelatihan bekerja pada set tes.

— Peter Flom - Pasang kembali Monica
sumber

Terima kasih atas jawabannya. Ini sesuai dengan yang saya pikirkan, meskipun saya tidak yakin apakah saya akan memiliki case untuk membagi data. Juga, karena item berada pada skala Likert 5 poin, saya berharap sebagian besar dari mereka, atau setidaknya "yang bagus", akan menunjukkan kesulitan yang sama.

— Behacad

Tentunya, Anda tahu referensi yang bagus :-) Saya akan menggodamu pada poin-poin berikut (karena utas ini kemungkinan akan berfungsi sebagai referensi untuk pertanyaan di masa mendatang). (a) Biasanya, penghapusan item berdasarkan alpha Cronbach dilakukan tanpa mempertimbangkan skema validasi silang. Jelas, ini adalah pendekatan yang bias karena individu yang sama digunakan untuk memperkirakan kedua ukuran tersebut. (B) Alternatif lain adalah untuk base item / skala korelasi dengan mempertimbangkan skor istirahat (yaitu, skor skor tanpa termasuk item yang dipertimbangkan): apakah Anda pikir itu penting dalam kasus ini? (...)

— chl

(...) (c) Akhirnya, model IRT sering digunakan untuk membuang item (dengan semangat pemurnian skala ) berdasarkan statistik kecocokan item dan sejenisnya. Apa pendapat Anda tentang pendekatan itu?

— chl

FYI Saya mungkin dapat menemukan referensi untuk masing-masing metode ini secara individual, tetapi saya akan menghargai setiap referensi potensial untuk menggunakan salah satu metode ini bersamaan. Referensi apa pun akan sangat bagus! Anda tahu (dan mungkin juga!) Pengulas ...

— Behacad

@ chl Saya bisa menggali referensi, tapi saya tidak tahu mereka dari atas kepala saya. Pada a) dan b), mungkin lebih penting daripada yang dipikirkan kebanyakan orang; seseorang harus melakukan simulasi. pada c) Sudah lama sejak saya melakukan hal-hal IRT (gelar saya di bidang psikometri, tapi itu sudah lama).

— Peter Flom - Pasang kembali Monica

Ketiga kriteria yang Anda sarankan sebenarnya dapat dilakukan dalam IRT, lebih khusus IRT multidimensi. Jika ukuran sampel Anda cukup besar mungkin akan menjadi cara yang konsisten untuk melakukannya untuk setiap subskala. Dengan cara ini Anda bisa mendapatkan manfaat IRT untuk memodelkan item secara mandiri (menggunakan model nominal untuk beberapa item, menggeneralisasi kredit parsial atau dinilai untuk yang lain, atau jika mungkin bahkan mengatur skala peringkat untuk membantu menafsirkan item-item politis dengan cara yang lebih pelit).

MIRT secara konseptual setara dengan analisis faktor tingkat item dan karenanya memiliki hubungan ekuivalen EFA linier untuk item dikotom dan politom. Saya tidak yakin apakah saya akan membeli ke dalam kriteria <0,3 untuk menjatuhkan barang, karena itu benar-benar tergantung pada konteks dan struktur faktor. Muatan kecil / lereng tidak memberikan informasi sebanyak mungkin tentang lokasi intersepsi, tetapi mungkin masih berguna karena mereka dapat menawarkan fungsi informasi yang lebih luas dan kurang memuncak di seluruh tingkat . Beberapa aplikasi dalam CAT menggunakan jenis-jenis item ini sejak awal juga karena mereka memberikan pita informasi yang lebih luas di awal pengujian. $\theta$

Menjatuhkan item berdasarkan kriteria Cronbach kira-kira sama dengan menjatuhkan item yang memberikan keandalan marginal / empiris yang lebih baik di IRT, jadi jika perangkat lunak yang Anda gunakan mendukung statistik ini maka Anda dapat mengikuti strategi yang sama tanpa meninggalkan paradigma IRT. Saya akan lebih cenderung untuk memeriksa fungsi informasi namun untuk melihat apakah menghapus item sangat mempengaruhi pengukuran di berbagai tingkat (terkait dengan di mana penyadapan berada). Plot informasi relatif juga berguna di sini. $\theta$

Anda dapat mencoba untuk menghapus item yang tidak sesuai dengan persyaratan unidimensional dari sebagian besar perangkat lunak IRT, tetapi saya tidak akan merekomendasikan hal ini jika mempengaruhi representasi teoritis dari konstruksi yang ada. Dalam aplikasi empiris, biasanya lebih baik untuk mencoba dan membuat model kita sesuai dengan teori kita, bukan sebaliknya. Juga, ini adalah di mana model bifactor / dua-tier cenderung sesuai karena Anda ingin memasukkan semua item yang mungkin sementara memperhitungkan multidimensi dengan cara yang sistematis dan diinginkan secara teoritis.

— filsuf
sumber

Terima kasih! Bagaimana Anda mengukur keandalan empiris di IRT? Apakah ini sama dengan informasi?

— Behacad

Tidak persis, itu lebih merupakan fungsi bagaimana seseorang memperoleh perkiraan 'skor sebenarnya' ( ) dan kesalahan standar yang terkait, untuk membentuk rasio CTT . Jadi, jika Anda menghitung skor EAP, misalnya, Anda dapat menggunakan informasi ini untuk membentuk rasio antara varians dan dan varians dalam kesalahan standar. The paket akan melakukan hal ini dengan itu fungsi, dan sehingga akan paket (atau mungkin itu adalah paket .... saya tidak ingat, itu penulis yang sama untuk kedua).

\hat{θ}

$\hat{\theta}$

r_{x x} = T / (T + E)

$r_{xx} = T / (T + E)$

θ

$\theta$ mirtfscores()sirtTAM

— filsuf

@ filsuf, mohon lihat pertanyaan jika Anda bisa menjawabnya.

— WhiteGirl