Set Similarity - Hitung indeks Jaccard tanpa kompleksitas kuadratik


14

Saya memiliki sekelompok set n yang saya butuhkan untuk menghitung semacam nilai "keunikan" atau "kesamaan". Saya telah menetapkan indeks Jaccard sebagai metrik yang cocok. Sayangnya, indeks Jaccard hanya beroperasi pada dua set sekaligus. Untuk menghitung kesamaan antara semua set , itu akan membutuhkan dalam urutan n 2 perhitungan Jaccard.nn2

(Jika itu membantu, biasanya antara 10 dan 10.000, dan setiap set berisi rata-rata 500 elemen. Juga, pada akhirnya, saya tidak peduli seberapa mirip dua set tertentu - agak, saya hanya peduli apa kesamaan internal dari seluruh kelompok set adalah (Dengan kata lain, rata-rata (atau setidaknya perkiraan rata-rata yang cukup akurat) dari semua indeks Jaccard dalam grup)n

Dua pertanyaan:

  1. Apakah ada cara untuk tetap menggunakan indeks Jaccard tanpa kompleksitas?n2
  2. Apakah ada cara yang lebih baik untuk menghitung kemiripan / keunikan himpunan di seluruh kelompok himpunan daripada cara yang saya sarankan di atas?

Bisakah Anda mengklarifikasi apa yang Anda maksud dengan "kesamaan internal"?
Suresh

Dengan kata lain, rata-rata (atau setidaknya perkiraan rata-rata yang cukup akurat) dari semua indeks Jaccard dalam grup.

5
Jika Anda ingin memperkirakan jawabannya, maka Anda dapat menggunakan hashing minimal untuk memperkirakan jarak Jaccard kira-kira dan kemudian menggunakan representasi yang dihasilkan untuk menghitung rata-rata yang diinginkan.
Suresh

6
Saya tidak tahu apa yang Anda maksud dengan "cukup akurat," tetapi satu cara untuk memperkirakan rata-rata banyak hal hanya menghitung beberapa dari mereka (indeks Jaccard dari beberapa pasang set dalam kasus ini) secara acak dan menghitung rata-rata mereka. Kemudian Anda dapat menggunakan batas Chernoff untuk mendapatkan batas atas pada probabilitas bahwa perkiraan ini jauh dari rata-rata sebenarnya.
Tsuyoshi Ito

Jawaban:


4

Pilihannya adalah menggunakan Skema Tanda Tangan [1], penyaringan berbasis ukuran : skema yang menggunakan informasi ukuran untuk mengurangi jumlah pasangan yang ditetapkan yang perlu dipertimbangkan.

Mereka juga bereksperimen dengan bentuk tertimbang; di mana bobot berbasis IDF.

[1] Arasu, Arvind, Venkatesh Ganti, dan Raghav Kaushik. "Set Persamaan Efisien yang Tepat Bergabung." Dalam Prosiding Konferensi Internasional ke-32 tentang Pangkalan Data yang Sangat Besar, 918–929. VLDB '06. VLDB Endowment, 2006


Tautan itu tampaknya telah mati. Pertimbangkan untuk memperbarui ke vldb.org/conf/2006/p918-arasu.pdf .
j_random_hacker

0

Pilihan lain adalah menggunakan tautan wiki hashing sensitivitas lokal . Saya telah melihatnya digunakan dalam deteksi kemiripan komunitas oleh Wu dan Zou ( Metode pendeteksian komunitas tambahan untuk sistem penandaan sosial menggunakan hashing yang sensitif terhadap lokalitas , Neural Networks 58: 14–28; ACM DL ) yang pada dasarnya mendeteksi kemiripan antara integer atau set string.


1
Harap rangkum konten tautan, dan kutip kertasnya. Jika tautan menjadi usang, jawaban saat ini menjadi tidak berguna.
vonbrand
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.