Saya memiliki kumpulan data 11.000+ item berbeda, yang masing-masing diklasifikasikan pada skala nominal oleh setidaknya 3 penilai berbeda di Mechanical Turk Amazon .
88 penilai yang berbeda memberikan penilaian untuk tugas tersebut, dan tidak ada penilai yang menyelesaikan lebih dari 800 penilaian. Sebagian besar memberikan secara signifikan lebih sedikit dari itu.
Pertanyaan saya adalah ini:
Saya ingin menghitung beberapa ukuran reliabilitas antar penilai untuk peringkat, sesuatu yang lebih baik daripada hanya melihat konsensus. Saya percaya, bagaimanapun, bahwa Fleiss Kappa, yang merupakan ukuran yang saya tahu terbaik, akan membutuhkan kelompok penilai yang konsisten untuk seluruh rangkaian item, dan jadi saya tidak dapat menggunakan Fleiss Kappa untuk memeriksa IRR dengan data saya. Apakah ini benar? Apakah ada metode lain yang bisa saya gunakan?
Saran apa pun akan sangat dihargai!