Kesamaan Jaccard diberikan oleh
sij=pp+q+r
dimana,
p = # atribut positif untuk kedua objek
q = # atribut 1 untuk i dan 0 untuk j
r = # atribut 0 untuk i dan 1 untuk j
Sedangkan, cosine similarity = mana A dan B adalah vektor objek.A⋅B∥A∥∥B∥
Sederhananya, dalam kesamaan cosinus, jumlah atribut umum dibagi dengan jumlah total atribut yang mungkin. Sedangkan dalam Jaccard Similarity, jumlah atribut umum dibagi dengan jumlah atribut yang ada di setidaknya satu dari dua objek.
Dan ada banyak ukuran kesamaan lainnya, masing-masing dengan eksentrisitasnya sendiri. Saat memutuskan mana yang akan digunakan, coba pikirkan beberapa kasus representatif dan cari tahu indeks mana yang akan memberikan hasil yang paling bermanfaat untuk mencapai tujuan Anda.
Indeks Cosine dapat digunakan untuk mengidentifikasi plagiarisme, tetapi tidak akan menjadi indeks yang baik untuk mengidentifikasi situs-situs mirror di internet. Sedangkan indeks Jaccard, akan menjadi indeks yang baik untuk mengidentifikasi situs cermin, tetapi tidak begitu hebat dalam menangkap copy paste plagiarisme (dalam dokumen yang lebih besar).
Saat menerapkan indeks ini, Anda harus memikirkan masalah Anda secara menyeluruh dan mencari cara untuk mendefinisikan kesamaan. Setelah Anda memiliki definisi dalam pikiran, Anda dapat berbelanja indeks.
Sunting:
Sebelumnya, saya memiliki contoh yang disertakan dalam jawaban ini, yang akhirnya salah. Berkat beberapa pengguna yang telah menunjukkan hal itu, saya telah menghapus contoh yang salah.