Apa yang harus dilakukan jika keandalan antar-penilai rendah (ICC) rendah?


8

Latar belakang: Delapan dokter masing-masing menilai 54 pasien yang sama pada ukuran persuasif (skala 1-7 Likert). Nilai rata-rata pada ukuran persuasif pada akhirnya akan menjadi ukuran hasil percobaan saya.

Reliabilitas antar penilai dikuantifikasi sebagai koefisien korelasi intraclass (ICC), menggunakan model efek acak dua arah dengan konsistensi. Sayangnya, reliabilitas antar penilai dari delapan dokter rendah (ICC = 0,350, tindakan tunggal). Haruskah saya masih menjalankan analisis terencana lebih lanjut dengan data yang tidak dapat diandalkan ini? Atau mungkinkah dibenarkan bahwa saya hanya memasukkan dokter (yaitu, penilai) dengan reliabilitas antar penilai tertinggi? Saya menemukan ada dua dokter dengan reliabilitas antar penilai yang lebih dapat diterima (ICC = 0,718, N = 2), tetapi saya rasa ini bukan alasan yang cukup untuk mengecualikan dokter lain dari analisis. Saya akan sangat menghargai referensi ke literatur yang berhubungan dengan masalah ini.

Jawaban:


6

Saya lebih suka menjawab atas dasar metodologi itu sendiri, daripada bagaimana "memperbaiki" situasi. Dalam konteks lain, saya membantu dalam mengerjakan sistem peringkat dan klasifikasi, dan menemukan bahwa perjanjian antar penilai sangat rendah. Dua jalur dipertimbangkan

  1. Ubah bagaimana perjanjian pemeringkatan didefinisikan dan identifikasi mereka yang tampaknya "memahami" tugas, atau
  2. Sempurnakan definisi yang digunakan, bersama dengan panduan dan contoh penyedia untuk penilai, sehingga mereka dapat lebih mudah memahami bagaimana menilai sesuatu.

Dalam adegan pertama, seluruh metodologi dan hasil dapat disia-siakan hanya karena reliabilitas antar penilai rendah. Ini menunjukkan bahwa definisi asli salah atau penilai diberi instruksi yang buruk. Jika saya melanjutkan jalan itu, saya pasti memiliki masalah.

Dalam kasus kedua, kesepakatan antara penilai sangat baik. Karena mereka memberi peringkat item yang cukup banyak, mereka juga dapat memberikan umpan balik ketika mereka menganggap definisi dan panduan asli tidak memadai. Pada akhirnya, metodologi ini sangat dapat direproduksi.

Berdasarkan itu, saya belum akan memodifikasi perangkat penilai Anda, tetapi kembali ke definisi dan panduan asli. Bermain-main setelah peringkat adalah masalah, meskipun itu dapat berguna sebagai pemeriksaan kualitas. Kadang-kadang ada penilai yang akan melakukan apa yang mereka inginkan, terlepas dari bimbingan yang diberikan. Dengan metode statistik yang baik, mudah untuk mengidentifikasi mereka dan mempertimbangkan kontribusi mereka secara tepat.

Sekarang, jika saya salah dan Anda tidak berencana untuk melakukan pengumpulan lebih lanjut, yaitu data Anda sudah dikumpulkan dan dilakukan, apa yang mungkin Anda lakukan adalah PCA atau yang sejenisnya, dan lihat apakah Anda bisa merasakan perbedaannya. dokter (atau pasien) klaster.

Apakah pasien terpapar ke semua dokter pada saat yang sama (misalnya melalui rekaman video) atau apakah mereka terpapar secara berurutan, dan memiliki kesempatan untuk mengubah presentasi mereka dengan setiap interaksi? Jika yang terakhir, maka mungkin ada masalah dengan pasien, dan bukan dokter.


3

Cherry memilih nilai ICC terbaik dari 28 pasangan yang mungkin jelas bukan ide yang baik, karena estimasi ICC tentu saja optimis.

The Neuen's Content Analysis Handbook memiliki diskusi yang cukup bagus tentang opsi untuk menangani keandalan yang buruk dalam pengkodean. Kutipan adalah:

Neuendorf, Kimberly A. The Content Analysis Handbook. Sage, Thousand Oaks, CA, 2002

Ada situs web yang menyertainya .


Tautan tidak berfungsi lagi
Tom
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.