Saya mencoba mencari cara untuk menghitung Rand Index dari algoritma cluster, tapi saya terjebak pada titik bagaimana menghitung negatif benar dan salah.
Saat ini saya menggunakan contoh dari buku An Introduction to Information Retrieval (Manning, Raghavan & Schütze, 2009). Di halaman 359 mereka berbicara tentang bagaimana cara menghitung indeks Rand. Untuk contoh ini mereka menggunakan tiga cluster dan cluster berisi objek-objek berikut.
- aaaaab
- abbbbc
- aaccc
Saya mengganti objek (tanda-tanda asli ke huruf, tetapi gagasan dan jumlah tetap sama). Saya akan memberikan kata-kata persis dari buku untuk melihat apa yang mereka bicarakan:
Kami pertama-tama menghitung TP + FP. Tiga cluster berisi 6, 6, dan 5 poin, masing-masing, sehingga jumlah total "positif" atau pasangan dokumen yang berada di cluster yang sama adalah:
TP + FP = + + = 15 + 15+ 10 = 40
Dari jumlah tersebut, pasangan a dalam kluster 1, pasangan b di kluster 2, pasangan c di kluster 3, dan pasangan di kluster 3 adalah positif sebenarnya:
TP = + + + = 10 + 6 + 3 + 1 = 20
Jadi, FP = 40 - 20 = 20.
Sampai di sini ada perhitungan yang jelas, dan jika saya mengambil contoh lain saya mendapatkan hasil yang sama, tetapi ketika saya ingin menghitung Manning et al negatif dan negatif palsu. nyatakan sebagai berikut:
FN dan TN dihitung dengan cara yang sama, menghasilkan tabel kontingensi berikut:
Tabel kontingensi terlihat sebagai berikut:
+--------+--------+
| TP: 20 | FN: 24 |
+--------+--------+
| FP: 20 | TN: 72 |
+--------+--------+
Kalimat: "FN dan TN dihitung dengan cara yang sama" tidak jelas untuk saya dan saya tidak mengerti angka mana yang saya butuhkan untuk menghitung TN dan FN. Saya dapat menghitung sisi kanan tabel dengan melakukan hal berikut:
TP + FP + FN + TN = = = 136
Sumber: http://en.wikipedia.org/wiki/Rand_index
Dengan demikian, FN + TN = 136 - TP + FP = 136 - 40 = 96, tetapi ini tidak benar-benar membantu saya dalam mencari tahu bagaimana menghitung variabel secara terpisah. Terutama ketika penulis mengatakan: "FN dan TN dihitung sama". Saya tidak mengerti caranya. Juga ketika saya melihat contoh lain mereka menghitung setiap sel dari tabel kontingensi dengan melihat masing-masing pasangan.
Contohnya: http://www.otlet-institute.org/wikics/Clustering_Problems.html#toc-Subsection-4.1
Pertanyaan pertama saya, berdasarkan contoh Manning et al (2009), apakah mungkin menghitung TN dan FN jika Anda hanya mengetahui TP & NP? Dan jika demikian, bagaimana perhitungan yang serupa terlihat dari contoh yang diberikan?