Aplikasi pengenalan suara untuk mengkonversi MP3 ke teks?


Jawaban:


21

Perangkat lunak yang dapat Anda gunakan adalah CMUSphinx . Tidak seperti yang disarankan dalam jawaban lain, Julius tidak cocok karena memerlukan model. Model untuk pengenalan ucapan kosakata besar tidak tersedia untuk Julius.

Anda dapat menggunakan pocketsphinx untuk mengonversi file audio. Kedua perintah itu harus melakukan pekerjaan. Pertama Anda mengonversi file ke format yang diperlukan dan kemudian Anda mengenalinya:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

Menjalankan pocketsphinx

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

Hasil akan disimpan di result.txt.


juga, sebagai tambahan untuk jawaban ini, ada demo keren dari keduanya speech recognitiondan voice commandalat - alat di sini: youtube.com/...
Daithí

Bagaimana Anda menambahkan model akustik ke sistem?
jarno

Anda cukup mengunduhnya dan membongkar, tidak ada yang namanya "tambahkan ke sistem"
Nikolay Shmyrev

@NikolayShmyrev Di mana saya harus membukanya sehingga pocketsphinx_continuous menemukannya?
jarno

4
Yah, saya menginstal paket pocketsphinx-utils, pocketsphinx-hmm-en-hub4wsj dan pocketsphinx-lm-en-hub4 di repositori semesta Ubuntu 14.04. Kemudian pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.logberhasil. Mungkin itu bukan paket yang optimal, tetapi itu adalah pasangan terbaik yang bisa saya temukan di repositori.
jarno

12

Saya tahu ini sudah tua, tetapi untuk memperluas jawaban Nikolay dan mudah-mudahan menghemat waktu seseorang di masa depan, untuk mendapatkan versi pocketsphinx yang terkini, Anda perlu mengkompilasinya dari repositori github atau sourceforge (tidak yakin yang terus diperbarui). Catatan -j8 berarti menjalankan 8 pekerjaan terpisah secara paralel jika memungkinkan; jika Anda memiliki lebih banyak core CPU, Anda dapat menambah jumlahnya.

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

Kemudian, dari: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/ unduh versi terbaru dari cmusphinx-en-us-....tar.gzdanen-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

Kemudian Anda akhirnya dapat melanjutkan dengan langkah-langkah dari jawaban Nikolay:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

Sphinx berfungsi dengan baik. Saya tidak akan bergantung padanya untuk membuat versi teks yang dapat dibaca, tetapi cukup baik bahwa Anda dapat mencarinya jika Anda mencari kutipan tertentu. Itu bekerja sangat baik jika Anda menggunakan algoritma pencarian seperti Xapian ( http://www.lesbonscomptes.com/recoll/ ) yang menerima wildcard dan tidak memerlukan ekspresi pencarian yang tepat.

Semoga ini membantu.


4
setiap hal bekerja seperti pesona tetapi dalam kasus saya, saya harus menjalankan perintah berikut untuk memperbaiki pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory-------> export LD_LIBRARY_PATH=/usr/local/lib------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
Vijay Dohare


11

Jika Anda ingin mengubah pidato menjadi teks, Anda dapat mencoba membuka Pusat Perangkat Lunak Ubuntu dan mencari Julius

Deskripsi

"Julius" adalah perangkat lunak decoder pengenal ucapan kontinu (LVCSR) kosakata dua-kinerja tinggi yang berkinerja tinggi untuk para peneliti dan pengembang yang terkait dengan pidato.

Atau opsi lain yang tidak ada di Pusat Perangkat Lunak adalah Simon

... adalah program pengenalan ucapan sumber terbuka dan menggantikan mouse dan keyboard.

Tautan Referensi

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.