Memiliki kumpulan lebih dari jutaan dokumen
Untuk dokumen yang diberikan ingin mencari dokumen serupa menggunakan cosinus seperti dalam model ruang vektor
Semua tf telah dinormalisasi menggunakan frekuensi augmented, untuk mencegah bias terhadap dokumen yang lebih panjang seperti dalam tf-idf ini :
Telah menghitung sebelumnya semua
Memiliki nilai-nilai untuk penyebut yang sudah dihitung sebelumnya.
Jadi untuk tertentu perlu mencetak lebih dari 1 juta
Memiliki ambang 0,6 cosinus untuk kesamaan d 1 d 2
Saya dapat mengamati bahwa untuk yang diberikanada kisaran yang cukup sempituntuk cosinus 0.6
Misalnya dalam satu pencarian yang mirip untuk cosinus 0.6 dan adari 7.7631 laluberkisar dari 7,0867 hingga 8,8339
Di mana di luar ambang batas cosinus 0,6 || d_2 || berkisar dari 0,7223 hingga 89,3395
Ini dengan standar tf normalisasi dokumen.
Ini melihat BANYAK || d_2 || yang tidak memiliki peluang menjadi pertandingan cosinus 0,6 | | d 2 | | ≥ ≥ | | d 1 | | | | d 2 | | | | d 2 | | | | d 2 | |
Akhirnya pertanyaan:
Untuk memberidan cosine dari> = 0,6 cara menentukan rentangyang punya kesempatan?
Yangdapatkah saya menghilangkan dengan aman? | | d 2 | | | | d 2 | |
Saya juga tahu jumlah istilah dalam dan jika ada rentang hitungan istilah.d 2
Melalui eksperimendan
tampaknya aman tetapi mudah-mudahan ada kisaran yang terbukti aman
Dibuat beberapa test case dengan beberapa istilah yang sangat unik, beberapa tidak begitu unik, dan beberapa umum. Cukup yakin Anda dapat mengambil istilah yang paling unik dan meningkatkan frekuensi itu di bandingkan. Pembilang akan (titik produk) naik dan begitu juga || membandingkan || dan akan mendapatkan kosinus yang sangat dekat dengan 1.
Agak terkait dan BUKAN pertanyaan.
Saya juga menggunakan tf-idf untuk mengelompokkan dokumen ke dalam grup. Basis pelanggan tempat saya menjual digunakan untuk mendekati grup dup. Di sana saya mengambil pendekatan terkait di saya terlihat sebagai jumlah term terkecil dan mengevaluasinya terhadap term term hingga 3x. Jadi hitungan istilah 10 terlihat pada 10 hingga 30 (4-9 sudah memiliki kesempatan mereka di 10). Di sini saya dapat melewatkan satu yang dijemput di yang lain. Saya selesai 10% dan rasio terbesar adalah 1,8.
Silakan identifikasi kekurangan dalam analisis ini
Seperti yang ditunjukkan oleh AN6U5, ada kelemahan dalam analisis
ini. Tidak lagi merupakan kosinus jika dokumen dinormalisasi berdasarkan bobot.
Dan seperti yang ditunjukkan oleh Mathew juga tidak dapat menyimpulkan d1⋅d2≤d1⋅d1.
Saya masih berharap ada sesuatu yang membuat saya terikat tetapi orang-orang yang tampaknya tahu hal ini mengatakan tidak,
saya tidak ingin mengubah pertanyaan, jadi abaikan saja ini,
saya akan melakukan beberapa analisis dan mungkin mengirim pertanyaan terpisah pada normalisasi dokumen
Untuk tujuan dari pertanyaan ini menganggap dokumen dinormalisasi pada baku tf
Maaf tapi saya hanya tidak baik dengan markup apa yang pernah digunakan untuk membuat persamaan
Jadi dalam notasi saya
|| d1 || = sqrt (jumlah (w1 x w1))
d1 dot d2 = jumlah (w1 X w2)
Diasumsikan d1 adalah dokumen yang lebih pendek.
Yang terbaik d1 dot d2 yang dapat dicapai adalah d1 dot d1
Jika d1 menikah 100 paul 20
Dan d2 menikah 100 paul 20 peter 1
Normalisasi
d1 menikah 1 paul 1/5
d2 menikah 1 paul 1/5 peter 1/100
Jelas menikah dan paul memiliki idf yang sama di kedua dokumen
. Kemungkinan terbaik d1 dot d2 adalah d1 dot d1
Pencocokan maksimum yang mungkin untuk d1 adalah d1
cos = d1 dot d1 / || d1 || || d2 ||
persegi kedua sisi
cos X cos = (d1 dot d1) X (d1 dot d1) / ((d1 dot d1) X (d2 dot d2)) cos X cos = (d1 dot d1) / (d2 dot d2)
ambil kotak akar dari kedua sisi
cos = || d1 || / || d2 ||
adalah || d2 || tidak dibatasi oleh cos?
Jika saya hanya menggunakan || d2 || > = cos || d1 || dan || d2 || <= || d1 || / cos saya mendapatkan kecepatan komputasi yang saya butuhkan