Saya sedang mengerjakan sebuah aplikasi yang membutuhkan pembuatan database n-gram yang sangat besar yang ada dalam corpus teks besar.
Saya membutuhkan tiga jenis operasi yang efisien: Pencarian dan penyisipan diindeks oleh n-gram itu sendiri, dan permintaan untuk semua n-gram yang berisi sub-n-gram.
Bagi saya ini kedengarannya seperti database harus pohon dokumen raksasa, dan database dokumen, misalnya Mongo, harus dapat melakukan pekerjaan dengan baik, tetapi saya tidak pernah menggunakannya pada skala.
Mengetahui format pertanyaan Stack Exchange, saya ingin mengklarifikasi bahwa saya tidak meminta saran tentang teknologi tertentu, melainkan tipe database yang harus saya cari untuk mengimplementasikan sesuatu seperti ini pada skala.