Saya memiliki vektor fitur (~ sejuta). Ada fitur biner (~ sejuta), tetapi dalam setiap vektor hanya (~ seribu) dari mereka akan menjadi , sisanya adalah . Saya mencari pasangan vektor yang memiliki setidaknya (~ seratus) fitur yang sama ( di keduanya). Jumlah pasangan demikian besarnya sama dengan (~ satu juta).M K 1 0 L 1 N
Saya pikir ini bisa didekati sebagai mencari pasangan titik dekat dalam ruang dimensi yang sangat tinggi. Fungsi jarak bisa sedemikian rupa sehingga didasarkan pada berapa banyak fitur yang dimiliki oleh kedua vektor tersebut. Tetapi mungkin akan berguna dengan metrik jarak yang lebih konvensional (seperti Euclidean) juga.
Algoritma terkenal mana yang akan berguna untuk mendekati masalah ini? Apa pun yang kuadratik dalam atau tidak akan praktis.M.
Contoh perumusan masalah dunia nyata adalah untuk mempertimbangkan orang bergerak di antara sejumlah lokasi. Jika dua orang berada di lokasi yang sama pada saat yang sama, kami katakan mereka bertemu satu sama lain. (Jumlah kombinasi waktu-lokasi dengan setidaknya 1 orang hadir adalah ) Kami mencari teman: orang yang bertemu setidaknya kali.M L