Ada masalah yang kami coba selesaikan di mana kami ingin melakukan pencarian semantik pada set data kami, yaitu kami memiliki data khusus domain (contoh: kalimat yang berbicara tentang mobil)
Data kami hanyalah sekelompok kalimat dan yang kami inginkan adalah memberikan frasa dan mendapatkan kembali kalimat-kalimat yang:
- Mirip dengan ungkapan itu
- Memiliki bagian kalimat yang mirip dengan frasa
- Sebuah kalimat yang memiliki makna yang mirip secara kontekstual
Biarkan saya mencoba memberi Anda sebuah contoh seandainya saya mencari frasa "Pengalaman Membeli", saya harus mendapatkan kalimat seperti:
- Saya tidak pernah berpikir untuk membeli mobil membutuhkan waktu kurang dari 30 menit untuk menandatangani dan membeli.
Saya menemukan mobil yang saya sukai dan proses pembeliannya
mudah dan mudahSaya benar-benar benci pergi berbelanja mobil, tetapi hari ini saya senang saya melakukannya
Saya ingin menekankan fakta bahwa kami mencari kesamaan kontekstual dan bukan hanya pencarian kata kasar.
Jika kalimat itu menggunakan kata-kata yang berbeda maka juga harus dapat menemukannya.
Hal-hal yang sudah kami coba:
Open Semantic Search , masalah yang kami hadapi di sini adalah menghasilkan ontologi dari data yang kami miliki, atau untuk itu mencari ontologi yang tersedia dari domain berbeda yang kami minati.
Pencarian Elastis (Vektor BM25 + (tf-idf)), kami mencoba ini di mana ia memberikan beberapa kalimat tetapi presisi tidak terlalu bagus. Akurasinya juga buruk. Kami mencoba melawan dataset yang dikuratori manusia, itu hanya bisa mendapatkan sekitar 10% dari kalimat saja.
Kami mencoba berbagai embeddings seperti yang pernah disebutkan dalam transformer kalimat dan juga melalui contoh dan mencoba mengevaluasi terhadap set manusia kami yang dikuratori dan itu juga memiliki akurasi yang sangat rendah.
Kami mencoba ELMO . Ini adalah akurasi yang lebih baik tetapi masih lebih rendah dari yang kami harapkan dan ada beban kognitif untuk memutuskan nilai cosinus di bawah yang kami tidak boleh mempertimbangkan kalimat. Ini bahkan berlaku untuk poin 3.
Bantuan apa pun akan dihargai. Terima kasih banyak atas bantuannya sebelumnya