Versi singkat dari pertanyaan: Saya mencari perangkat lunak pengenalan suara yang berjalan di Linux dan memiliki akurasi dan kegunaan yang layak. Lisensi dan harga apa pun baik-baik saja. Seharusnya tidak dibatasi untuk perintah suara, karena saya ingin dapat menentukan teks.
Keterangan lebih lanjut:
Saya tidak puas mencoba yang berikut ini:
- CMU Sphinx
- CVoiceControl
- Telinga
- Julius
- Kaldi (mis., Server Kaldi GStreamer )
- IBM ViaVoice (digunakan untuk berjalan di Linux tetapi dihentikan tahun yang lalu)
- NICO ANN Toolkit
- OpenMindSpeech
- RWTH ASR
- berteriak
- silvius (dibangun di atas alat pengenalan ucapan Kaldi)
- Simon Listens
- ViaVoice / Xvoice
- Wine + Dragon NaturallySpeaking + NatLink + capung + damselfly
- https://github.com/DragonComputer/Dragonfire : hanya menerima perintah suara
Semua solusi Linux asli yang disebutkan di atas memiliki akurasi dan kegunaan yang buruk (atau beberapa tidak mengizinkan dikte teks bebas tetapi hanya perintah suara). Dengan akurasi yang buruk, maksud saya akurasi jauh di bawah perangkat lunak pengenalan suara yang saya sebutkan di bawah ini untuk platform lain. Adapun Wine + Dragon NaturallySpeaking, dalam pengalaman saya itu terus menabrak, dan saya tampaknya bukan satu-satunya yang memiliki masalah seperti itu sayangnya.
Di Microsoft Windows saya menggunakan Dragon NaturallySpeaking, di Apple Mac OS XI menggunakan Apple Dictation dan DragonDictate, di Android saya menggunakan pengenalan suara Google, dan di iOS saya menggunakan pengenalan ucapan Apple bawaan.
Baidu Penelitian dirilis kemarin yang kode untuk perpustakaan pengenalan suara dengan menggunakan koneksionis Temporal Klasifikasi dilaksanakan dengan Torch. Tingkatan yang dicapai dari Gigaom menggembirakan seperti yang ditunjukkan pada tangkapan layar di bawah, tapi saya tidak mengetahui adanya pembungkus yang baik untuk membuatnya dapat digunakan tanpa beberapa pengkodean (dan kumpulan data pelatihan yang besar):
Ada beberapa proyek open-source yang sangat alfa:
- https://github.com/mozilla/DeepSpeech (bagian dari proyek Vaani Mozilla: http://vaani.io ( mirror ))
- https://github.com/pannous/tensorflow-speech-recognition
- Vox, sistem untuk mengontrol sistem Linux menggunakan Dragon NaturallySpeaking: https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
- https://github.com/facebookresearch/wav2letter
- https://github.com/espnet/espnet
- http://github.com/tensorflow/lingvo (akan dirilis oleh Google, disebutkan di Interspeech 2018)
Saya juga menyadari upaya ini untuk melacak keadaan seni dan hasil terbaru (bibliografi) pada pengenalan ucapan. serta tolok ukur API pengenalan ucapan yang ada ini .
Saya mengetahui Aenea , yang memungkinkan pengenalan suara melalui Dragonfly di satu komputer untuk mengirim acara ke komputer lain, tetapi ada beberapa biaya latensi:
Saya juga mengetahui dua pembicaraan ini yang mengeksplorasi opsi Linux untuk pengenalan suara:
- 2016 - HARAPAN Kesebelas: Pengodean dengan Suara dengan Pengenalan Pidato Sumber Terbuka (David Williams-King)
- 2014 - Pycon: Menggunakan Python ke Kode dengan Suara (Tavis Rudd)