Bisakah satu menggunakan Cohen Kappa hanya untuk dua penilaian?

Saya menggunakan Cohen Kappa untuk menghitung antar-perjanjian antara dua hakim.

Itu dihitung sebagai:

$\frac{P(A) - P(E)}{1 - P(E)}$

dimana $P(A)$ adalah proporsi perjanjian dan $P(E)$ probabilitas kesepakatan secara kebetulan.

Sekarang untuk dataset berikut, saya mendapatkan hasil yang diharapkan:

User A judgements: 
  - 1, true
  - 2, false
User B judgements: 
  - 1, false
  - 2, false
Proportion agreed: 0.5
Agreement by chance: 0.625
Kappa for User A and B: -0.3333333333333333

Kita bisa melihat bahwa kedua hakim belum setuju dengan baik. Namun dalam kasus berikut di mana kedua hakim mengevaluasi satu kriteria, kappa mengevaluasi ke nol:

User A judgements: 
  - 1, false
User B judgements: 
  - 1, false
Proportion agreed: 1.0
Agreement by chance: 1.0
Kappa for User A and B: 0

Sekarang saya bisa melihat bahwa perjanjian secara kebetulan jelas 1, yang menyebabkan kappa menjadi nol, tetapi apakah ini dianggap sebagai hasil yang dapat diandalkan? Masalahnya adalah saya biasanya tidak memiliki lebih dari dua penilaian per kriteria, jadi ini semua tidak akan pernah mengevaluasi ke kappa yang lebih besar dari 0, yang menurut saya tidak terlalu representatif.

Apakah saya benar dengan perhitungan saya? Bisakah saya menggunakan metode lain untuk menghitung antar-perjanjian?

Di sini kita dapat melihat bahwa kappa berfungsi dengan baik untuk beberapa penilaian:

User A judgements: 
  - 1, false
  - 2, true
  - 3, false
  - 4, false
  - 5, true
User A judgements: 
  - 1, true
  - 2, true
  - 3, false
  - 4, true
  - 5, false
Proportion agreed: 0.4
Agreement by chance: 0.5
Kappa for User A and B: -0.19999999999999996

reliability information-retrieval

— slhck
sumber

Untuk reliabilitas antar penilai dengan hasil biner, saya pikir biasanya orang menggunakan koefisien tetrachoric.

— shabbychef

Bisakah Anda menguraikan itu? Saya jelas bukan ahli dalam hal statistik dan sepertinya saya tidak dapat menemukan pendekatan langsung untuk menghitung koefisien tetrachoric.

— slhck

Saya pikir Anda tidak benar dalam perhitungan pertama. Jika saya tidak salah, perjanjian kebetulan harus 0,5, memberikan kappa 0.

— onestop

Saya tidak begitu mengerti information-retrievaltanda di sini.

— chl

Saya tidak tahu, saya sedang mengerjakan tugas pencarian informasi, di mana orang menilai apakah dokumen itu relevan atau tidak, maka statistik kappa. Tetapi semua orang dapat melakukan retag posting di sini, jadi silakan saja! @onestop, mengikuti panduan standar ini, nomor saya benar, marginal yang dikumpulkan masing-masing adalah 0,75 dan 0,25, dan keduanya dikuadratkan dan ditambahkan satu sama lain sama, 0,625

— slhck

Jawaban:

"Koreksi kebetulan" di Cohen $\kappa$ memperkirakan probabilitas di mana setiap penilai memilih kategori yang ada. Estimasi berasal dari frekuensi marginal dari kategori. Ketika Anda hanya memiliki 1 penilaian untuk setiap penilai, ini artinya $\kappa$ mengasumsikan kategori yang dipilih untuk penilaian tunggal ini secara umum memiliki probabilitas 1. Ini jelas tidak masuk akal karena jumlah penilaian (1) terlalu kecil untuk secara andal memperkirakan tingkat dasar semua kategori.

Alternatif mungkin adalah model binomial sederhana: tanpa informasi tambahan, kita dapat mengasumsikan bahwa probabilitas kesepakatan antara dua penilai untuk satu penilaian adalah 0,5 karena penilaiannya adalah biner. Ini berarti bahwa kami secara implisit menganggap bahwa kedua penilai memilih setiap kategori dengan probabilitas 0,5 untuk semua kriteria. Jumlah perjanjian yang diharapkan secara kebetulan atas semua kriteria kemudian mengikuti distribusi binomial dengan $p=0.5$ .

— caracal
sumber

Saya menemukan jawaban caracal meyakinkan, tetapi saya juga percaya Kappa Cohen hanya dapat menjelaskan sebagian dari apa yang merupakan keandalan antar penilai. % Sederhana dari peringkat dalam perjanjian menyumbang bagian lain, dan korelasi antara peringkat, sepertiga. Dibutuhkan ketiga metode untuk mendapatkan gambaran lengkap. Untuk detailnya, lihat http://pareonline.net/getvn.asp?v=9&n=4 :

"[...] praktik umum menggambarkan reliabilitas antar penantang sebagai konsep tunggal, terpadu paling tidak tepat, dan paling buruk berpotensi menyesatkan."

— rolando2
sumber