Jawaban:
Perangkat lunak yang dapat Anda gunakan adalah CMUSphinx . Tidak seperti yang disarankan dalam jawaban lain, Julius tidak cocok karena memerlukan model. Model untuk pengenalan ucapan kosakata besar tidak tersedia untuk Julius.
Anda dapat menggunakan pocketsphinx untuk mengonversi file audio. Kedua perintah itu harus melakukan pekerjaan. Pertama Anda mengonversi file ke format yang diperlukan dan kemudian Anda mengenalinya:
ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav
Menjalankan pocketsphinx
pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt
Hasil akan disimpan di result.txt.
speech recognition
dan voice command
alat - alat di sini: youtube.com/...
pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.log
berhasil. Mungkin itu bukan paket yang optimal, tetapi itu adalah pasangan terbaik yang bisa saya temukan di repositori.
Saya tahu ini sudah tua, tetapi untuk memperluas jawaban Nikolay dan mudah-mudahan menghemat waktu seseorang di masa depan, untuk mendapatkan versi pocketsphinx yang terkini, Anda perlu mengkompilasinya dari repositori github atau sourceforge (tidak yakin yang terus diperbarui). Catatan -j8 berarti menjalankan 8 pekerjaan terpisah secara paralel jika memungkinkan; jika Anda memiliki lebih banyak core CPU, Anda dapat menambah jumlahnya.
git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
Kemudian, dari: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/
unduh versi terbaru dari cmusphinx-en-us-....tar.gz
danen-70k-....lm.gz
tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz
Kemudian Anda akhirnya dapat melanjutkan dengan langkah-langkah dari jawaban Nikolay:
ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
-hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
2>pocketsphinx.log >book.txt
Sphinx berfungsi dengan baik. Saya tidak akan bergantung padanya untuk membuat versi teks yang dapat dibaca, tetapi cukup baik bahwa Anda dapat mencarinya jika Anda mencari kutipan tertentu. Itu bekerja sangat baik jika Anda menggunakan algoritma pencarian seperti Xapian ( http://www.lesbonscomptes.com/recoll/ ) yang menerima wildcard dan tidak memerlukan ekspresi pencarian yang tepat.
Semoga ini membantu.
pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory
-------> export LD_LIBRARY_PATH=/usr/local/lib
------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
Jika Anda ingin mengubah pidato menjadi teks, Anda dapat mencoba membuka Pusat Perangkat Lunak Ubuntu dan mencari Julius
Deskripsi
"Julius" adalah perangkat lunak decoder pengenal ucapan kontinu (LVCSR) kosakata dua-kinerja tinggi yang berkinerja tinggi untuk para peneliti dan pengembang yang terkait dengan pidato.
Atau opsi lain yang tidak ada di Pusat Perangkat Lunak adalah Simon
... adalah program pengenalan ucapan sumber terbuka dan menggantikan mouse dan keyboard.
Tautan Referensi
http://julius.sourceforge.jp/en_index.php
Anda dapat menggunakan panel transkripsi speechpad.pw