Saya menggunakan Cohen Kappa untuk menghitung antar-perjanjian antara dua hakim.
Itu dihitung sebagai:
dimana adalah proporsi perjanjian dan probabilitas kesepakatan secara kebetulan.
Sekarang untuk dataset berikut, saya mendapatkan hasil yang diharapkan:
User A judgements:
- 1, true
- 2, false
User B judgements:
- 1, false
- 2, false
Proportion agreed: 0.5
Agreement by chance: 0.625
Kappa for User A and B: -0.3333333333333333
Kita bisa melihat bahwa kedua hakim belum setuju dengan baik. Namun dalam kasus berikut di mana kedua hakim mengevaluasi satu kriteria, kappa mengevaluasi ke nol:
User A judgements:
- 1, false
User B judgements:
- 1, false
Proportion agreed: 1.0
Agreement by chance: 1.0
Kappa for User A and B: 0
Sekarang saya bisa melihat bahwa perjanjian secara kebetulan jelas 1, yang menyebabkan kappa menjadi nol, tetapi apakah ini dianggap sebagai hasil yang dapat diandalkan? Masalahnya adalah saya biasanya tidak memiliki lebih dari dua penilaian per kriteria, jadi ini semua tidak akan pernah mengevaluasi ke kappa yang lebih besar dari 0, yang menurut saya tidak terlalu representatif.
Apakah saya benar dengan perhitungan saya? Bisakah saya menggunakan metode lain untuk menghitung antar-perjanjian?
Di sini kita dapat melihat bahwa kappa berfungsi dengan baik untuk beberapa penilaian:
User A judgements:
- 1, false
- 2, true
- 3, false
- 4, false
- 5, true
User A judgements:
- 1, true
- 2, true
- 3, false
- 4, true
- 5, false
Proportion agreed: 0.4
Agreement by chance: 0.5
Kappa for User A and B: -0.19999999999999996
information-retrieval
tanda di sini.