Keandalan interrater untuk acara dalam rangkaian waktu dengan ketidakpastian tentang waktu acara

13

Saya memiliki beberapa coder independen yang mencoba mengidentifikasi peristiwa dalam rangkaian waktu - dalam hal ini, menonton video percakapan tatap muka dan mencari perilaku nonverbal tertentu (misalnya, anggukan kepala) dan mengkode waktu dan kategori masing-masing peristiwa. Data ini dapat diperlakukan sebagai seri waktu diskrit dengan laju pengambilan sampel tinggi (30 bingkai / detik) atau sebagai seri waktu kontinu, mana yang lebih mudah untuk dikerjakan.

Saya ingin menghitung beberapa tingkat reliabilitas antar penilai, tapi saya berharap akan ada ketidakpastian ketika peristiwa terjadi; yaitu, saya berharap bahwa satu coder mungkin, misalnya, kode bahwa gerakan tertentu mulai seperempat detik lebih lambat dari coders lain pikir itu dimulai. Ini adalah peristiwa langka, jika itu membantu; biasanya setidaknya beberapa detik (ratusan frame video) antara peristiwa.

Apakah ada cara yang baik untuk menilai reliabilitas antar penilai yang melihat pada kedua jenis perjanjian dan ketidaksepakatan ini: (1) apakah penilai setuju pada peristiwa apa yang terjadi (jika ada), dan (2) apakah mereka setuju ketika itu terjadi? Yang kedua penting bagi saya karena saya tertarik melihat waktu kejadian ini relatif terhadap hal-hal lain yang terjadi dalam percakapan, seperti apa yang orang katakan.

Praktik standar di bidang saya tampaknya adalah membagi berbagai hal menjadi irisan waktu, katakanlah sekitar 1/4 detik, gabungkan kejadian yang dilaporkan masing-masing pembuat kode per irisan waktu, lalu hitung kappa Cohen atau ukuran serupa lainnya. Tetapi pilihan durasi irisan adalah ad-hoc, dan saya tidak mendapatkan ide yang baik tentang ketidakpastian waktu acara.

Pikiran terbaik yang saya miliki sejauh ini adalah bahwa saya dapat menghitung semacam kurva reliabilitas; sesuatu seperti kappa sebagai fungsi dari ukuran jendela di mana saya menganggap dua peristiwa sebagai kode pada saat yang sama. Saya tidak begitu yakin ke mana harus pergi dari sana, meskipun ...

time-series reliability agreement-statistics

— chl
sumber

Sepertinya situasi di mana metode analisis data fungsional dapat diterapkan. Apakah Anda mempertimbangkannya?

— mpiktas

Saya telah memikirkan analisis data fungsional, tetapi ini bukan bidang yang saya kenal. Saya sedang mengerjakan buku Ramsay dan Silverman sekarang. Tapi saya tidak segera melihat bagaimana menangani variabel hasil multinomial ...?

Apakah ada standar emas yang tersedia untuk pengukuran tersebut (yaitu, apakah Anda tahu kapan peristiwa yang menarik terjadi?) Berapa banyak coders yang termasuk dalam penelitian ini? Berapa banyak peristiwa berbeda yang dapat kita harapkan?

— chl

2

Inilah beberapa cara untuk dipikirkan.

1

A) Anda dapat memperlakukan setiap urutan pengkodean penuh sebagai rangkaian peristiwa yang diperintahkan (yaitu ["anggukan kepala", "guncangan kepala", "anggukan kepala", "alis terangkat"] dan ["anggukan kepala", "guncangan kepala" , "alis terangkat"]), lalu sejajarkan urutan menggunakan algoritma yang masuk akal bagi Anda ( http://en.wikipedia.org/wiki/Sequence_alignment ). Anda kemudian dapat menghitung keandalan antar koder untuk seluruh urutan.

B) Kemudian, sekali lagi menggunakan urutan yang selaras, Anda dapat membandingkan ketika mereka mengatakan suatu peristiwa terjadi, mengingat bahwa mereka berdua mengamati peristiwa tersebut.

2) Sebagai alternatif, Anda dapat memodelkan ini sebagai Hidden Markov Model, dan menggunakan sesuatu seperti algoritma Baumn-Welch untuk menentukan probabilitas yang, mengingat beberapa kejadian aktual, masing-masing pembuat kode mengode data dengan benar. http://en.wikipedia.org/wiki/Baum-Welch_algorithm

— fgregg
sumber

Teknik ini tampaknya mirip dengan apa yang Grafsgaard 2012 lakukan untuk tugas terdengar serupa.

— KevinL

0

Daripada mengiris data menjadi beberapa bagian yang sewenang-wenang, Anda dapat mempertimbangkan perbedaan waktu yang sebenarnya. Coder 1 melaporkan waktu dan tindakan:

Cara sederhana untuk melihat pembuat kode mana yang paling dapat diandalkan menurut pembuat kode lain adalah dengan memberinya skor seperti ini:

Add a point for each other coder that reported a D between (049-025) and (049+025)
Add a point for each other coder that reported a C between (113-025) and (113+025)
Add a point for each other coder that reported a C between (513-025) and (513+025)
Add a point for each other coder that reported a C between (724-025) and (724+025)
Subtract a point for each reported action.

Jika kedekatan penting bagi Anda, pertimbangkan alternatif seperti ini:

Add 25/(Time_Thiscoder-Time_Othercoder)^2 points for each other coder that reported a matching observation.

Dengan semua informasi masalah yang tersedia, tidaklah sulit untuk mengimplementasikan ide ini dengan cara yang praktis.

— Dennis Jaheruddin
sumber

1

Dari mana "25" itu berasal? Apakah Anda memiliki referensi atau dapatkah Anda menjelaskan teori yang membenarkan proposal ini?

— Whuber