"A" terkait dengan "B" dan "C". Bagaimana saya menunjukkan bahwa "B" dan "C" mungkin, dalam konteks ini, juga terkait?
Contoh:
Berikut adalah beberapa berita utama tentang drama Broadway baru-baru ini:
- Glengarry Glen Ross karya David Mamet, Dibintangi Al Pacino, Dibuka di Broadway
- Al Pacino dalam 'Glengarry Glen Ross': Apa pendapat para kritikus?
- Al Pacino mendapat ulasan kurang bersemangat untuk pergantian Broadway
- Ulasan Teater: Glengarry Glen Ross Menjual Bintang-Bintangnya Keras
- Glengarry Glen Ross; Hei, Siapa yang membunuh Lampu Klieg?
Masalah:
Menjalankan kecocokan fuzzy-string pada catatan-catatan ini akan membangun beberapa hubungan, tetapi tidak yang lain, meskipun pembaca manusia bisa mengambilnya dari konteks dalam kumpulan data yang jauh lebih besar.
Bagaimana cara menemukan hubungan yang menunjukkan # 3 terkait dengan # 4? Keduanya dapat dengan mudah dihubungkan ke # 1, tetapi tidak satu sama lain.
Apakah ada nama (Googlable) untuk jenis data atau struktur ini? Algoritma apa yang saya cari?
Tujuan:
Diberikan 1.000 tajuk berita, sebuah sistem yang secara otomatis menyarankan bahwa 5 item ini semuanya mungkin tentang hal yang sama.
Sejujurnya, sudah begitu lama sejak saya memprogram saya bingung bagaimana mengartikulasikan masalah ini dengan benar. (Saya tidak tahu apa yang tidak saya ketahui, jika itu masuk akal).
Ini adalah proyek pribadi dan saya menulisnya dengan Python. Terima kasih sebelumnya atas bantuan, saran, dan petunjuk!