Saya perlu menemukan cara yang cukup efisien untuk mendeteksi suku kata dalam sebuah kata. Misalnya,
Tak terlihat -> in-vi-sib-le
Ada beberapa aturan silabifikasi yang dapat digunakan:
V CV VC CVC CCV CCCV CVCC
* di mana V adalah vokal dan C adalah konsonan. Misalnya,
Pengucapan (5 Pro-nun-ci-a-tion; CV-CVC-CV-V-CVC)
Saya telah mencoba beberapa metode, di antaranya menggunakan regex (yang hanya membantu jika Anda ingin menghitung suku kata) atau definisi aturan hard code (pendekatan brute force yang terbukti sangat tidak efisien) dan akhirnya menggunakan automata keadaan terbatas (yang memang tidak menghasilkan sesuatu yang berguna).
Tujuan aplikasi saya adalah membuat kamus dari semua suku kata dalam bahasa tertentu. Kamus ini nantinya akan digunakan untuk aplikasi pemeriksa ejaan (menggunakan pengklasifikasi Bayesian) dan sintesis teks ke ucapan.
Saya akan sangat menghargai jika seseorang dapat memberi saya tip tentang cara alternatif untuk menyelesaikan masalah ini selain pendekatan saya sebelumnya.
Saya bekerja di Java, tetapi tip apa pun di C / C ++, C #, Python, Perl ... akan berhasil untuk saya.