Saya memiliki sekelompok set n yang saya butuhkan untuk menghitung semacam nilai "keunikan" atau "kesamaan". Saya telah menetapkan indeks Jaccard sebagai metrik yang cocok. Sayangnya, indeks Jaccard hanya beroperasi pada dua set sekaligus. Untuk menghitung kesamaan antara semua set , itu akan membutuhkan dalam urutan n 2 perhitungan Jaccard.
(Jika itu membantu, biasanya antara 10 dan 10.000, dan setiap set berisi rata-rata 500 elemen. Juga, pada akhirnya, saya tidak peduli seberapa mirip dua set tertentu - agak, saya hanya peduli apa kesamaan internal dari seluruh kelompok set adalah (Dengan kata lain, rata-rata (atau setidaknya perkiraan rata-rata yang cukup akurat) dari semua indeks Jaccard dalam grup)
Dua pertanyaan:
- Apakah ada cara untuk tetap menggunakan indeks Jaccard tanpa kompleksitas?
- Apakah ada cara yang lebih baik untuk menghitung kemiripan / keunikan himpunan di seluruh kelompok himpunan daripada cara yang saya sarankan di atas?