Saya memiliki beberapa coder independen yang mencoba mengidentifikasi peristiwa dalam rangkaian waktu - dalam hal ini, menonton video percakapan tatap muka dan mencari perilaku nonverbal tertentu (misalnya, anggukan kepala) dan mengkode waktu dan kategori masing-masing peristiwa. Data ini dapat diperlakukan sebagai seri waktu diskrit dengan laju pengambilan sampel tinggi (30 bingkai / detik) atau sebagai seri waktu kontinu, mana yang lebih mudah untuk dikerjakan.
Saya ingin menghitung beberapa tingkat reliabilitas antar penilai, tapi saya berharap akan ada ketidakpastian ketika peristiwa terjadi; yaitu, saya berharap bahwa satu coder mungkin, misalnya, kode bahwa gerakan tertentu mulai seperempat detik lebih lambat dari coders lain pikir itu dimulai. Ini adalah peristiwa langka, jika itu membantu; biasanya setidaknya beberapa detik (ratusan frame video) antara peristiwa.
Apakah ada cara yang baik untuk menilai reliabilitas antar penilai yang melihat pada kedua jenis perjanjian dan ketidaksepakatan ini: (1) apakah penilai setuju pada peristiwa apa yang terjadi (jika ada), dan (2) apakah mereka setuju ketika itu terjadi? Yang kedua penting bagi saya karena saya tertarik melihat waktu kejadian ini relatif terhadap hal-hal lain yang terjadi dalam percakapan, seperti apa yang orang katakan.
Praktik standar di bidang saya tampaknya adalah membagi berbagai hal menjadi irisan waktu, katakanlah sekitar 1/4 detik, gabungkan kejadian yang dilaporkan masing-masing pembuat kode per irisan waktu, lalu hitung kappa Cohen atau ukuran serupa lainnya. Tetapi pilihan durasi irisan adalah ad-hoc, dan saya tidak mendapatkan ide yang baik tentang ketidakpastian waktu acara.
Pikiran terbaik yang saya miliki sejauh ini adalah bahwa saya dapat menghitung semacam kurva reliabilitas; sesuatu seperti kappa sebagai fungsi dari ukuran jendela di mana saya menganggap dua peristiwa sebagai kode pada saat yang sama. Saya tidak begitu yakin ke mana harus pergi dari sana, meskipun ...