Apakah ada perangkat lunak pengenalan suara yang layak untuk Linux?


50

Versi singkat dari pertanyaan: Saya mencari perangkat lunak pengenalan suara yang berjalan di Linux dan memiliki akurasi dan kegunaan yang layak. Lisensi dan harga apa pun baik-baik saja. Seharusnya tidak dibatasi untuk perintah suara, karena saya ingin dapat menentukan teks.


Keterangan lebih lanjut:

Saya tidak puas mencoba yang berikut ini:

Semua solusi Linux asli yang disebutkan di atas memiliki akurasi dan kegunaan yang buruk (atau beberapa tidak mengizinkan dikte teks bebas tetapi hanya perintah suara). Dengan akurasi yang buruk, maksud saya akurasi jauh di bawah perangkat lunak pengenalan suara yang saya sebutkan di bawah ini untuk platform lain. Adapun Wine + Dragon NaturallySpeaking, dalam pengalaman saya itu terus menabrak, dan saya tampaknya bukan satu-satunya yang memiliki masalah seperti itu sayangnya.

Di Microsoft Windows saya menggunakan Dragon NaturallySpeaking, di Apple Mac OS XI menggunakan Apple Dictation dan DragonDictate, di Android saya menggunakan pengenalan suara Google, dan di iOS saya menggunakan pengenalan ucapan Apple bawaan.

Baidu Penelitian dirilis kemarin yang kode untuk perpustakaan pengenalan suara dengan menggunakan koneksionis Temporal Klasifikasi dilaksanakan dengan Torch. Tingkatan yang dicapai dari Gigaom menggembirakan seperti yang ditunjukkan pada tangkapan layar di bawah, tapi saya tidak mengetahui adanya pembungkus yang baik untuk membuatnya dapat digunakan tanpa beberapa pengkodean (dan kumpulan data pelatihan yang besar):

masukkan deskripsi gambar di sini

Ada beberapa proyek open-source yang sangat alfa:

Saya juga menyadari upaya ini untuk melacak keadaan seni dan hasil terbaru (bibliografi) pada pengenalan ucapan. serta tolok ukur API pengenalan ucapan yang ada ini .


Saya mengetahui Aenea , yang memungkinkan pengenalan suara melalui Dragonfly di satu komputer untuk mengirim acara ke komputer lain, tetapi ada beberapa biaya latensi:

masukkan deskripsi gambar di sini

Saya juga mengetahui dua pembicaraan ini yang mengeksplorasi opsi Linux untuk pengenalan suara:


2
Beberapa perincian tentang apa yang Anda temukan "tidak memuaskan" mungkin memajukan topik posting Anda yang menarik tetapi agak umum. Misalnya: secara spesifik apa yang menurut Anda tidak memuaskan tentang kombinasi "Wine + Dragon NaturallySpeaking"? (bagaimana itu gagal mereplikasi pengalaman Windows Anda?)
Theophrastus

1
@Theophrastus Pada dasarnya semua solusi Linux asli memiliki akurasi dan kegunaan yang buruk. Dengan akurasi yang buruk, maksud saya akurasi jauh di bawah perangkat lunak pengenalan suara yang saya sebutkan untuk platform lain. Adapun Wine + Dragon NaturallySpeaking, dalam pengalaman saya, itu terus menabrak, dan saya tampaknya bukan satu-satunya yang memiliki masalah seperti itu sayangnya ( appdb.winehq.org/… )
Franck Dernoncourt

1
Saya belum mencoba ini, tetapi kalau-kalau ada yang merasa berguna: github.com/Uberi/speech_recognition dan jasperproject.github.io dan github.com/benoitfragit/google2ubuntu
Hatshepsut

Apakah ada salah satu dari perangkat lunak ini yang memiliki alat baris perintah? Akan sangat menarik untuk menggabungkan pengenalan suara ke alat penekanan tombol dan mouse seperti xdotool ( github.com/jordansissel/xdotool ) atau xsendkey ( github.com/kyoto/sendkeys ).
baptx

Jawaban:


13

Saat ini saya sedang bereksperimen dengan menggunakan koneksi KDE yang dikombinasikan dengan pengenalan ucapan Google di smartphone android saya.

KDE Connect memungkinkan Anda untuk menggunakan perangkat Android Anda sebagai perangkat input untuk komputer Linux Anda (ada juga beberapa fitur lainnya). Anda perlu menginstal aplikasi KDE connect dari Google play store di ponsel cerdas / tablet Anda dan menginstal kdeconnect dan indikator-kdeconnect di komputer Linux Anda. Untuk sistem Ubuntu instal berjalan sebagai berikut:

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

Kelemahan dari instalasi ini adalah menginstal banyak paket KDE yang tidak Anda perlukan jika Anda tidak menggunakan lingkungan desktop KDE.

Setelah Anda memasangkan perangkat android Anda dengan komputer Anda (mereka harus berada di jaringan yang sama), Anda dapat menggunakan keyboard android dan kemudian klik / tekan pada mic untuk menggunakan pengenalan ucapan Google. Saat Anda berbicara, teks akan mulai muncul di mana kursor Anda aktif di komputer Linux Anda.

Adapun hasilnya, mereka agak campur aduk untuk saya karena saya saat ini sedang menulis beberapa dokumen astrofisika teknis dan pengenalan suara Google sedang berjuang dengan jargon yang biasanya tidak Anda baca. Juga lupakan tentang mencari tahu tanda baca atau huruf besar yang tepat.

masukkan deskripsi gambar di sini

masukkan deskripsi gambar di sini



3

Sebagai seorang Linuxer lagi yang mencari program ucapan-ke-teks (dikte) yang bermanfaat, saya melihat ke speechpad.pw:

  • itu mengenali bahasa ibu saya dengan sangat baik
  • ini bekerja cepat dan sangat andal

Kerugian:

  • tentu saja itu adalah perangkat lunak berpemilik dan tertutup dari Google
  • layanan Google akan mendengarkan, memproses, dan seharusnya menyimpan setiap kata yang Anda ucapkan
  • audio dan teks akan diproses dan jelas disimpan oleh Google
  • speechpad.pw membutuhkan biaya berlangganan bulanan / kuarter / tahunan
  • speechpad.pw hanya berjalan sebagai tambahan ke browser Google Chrome - tidak ada browser lain

Jadi, speechpad.pw sangat eksklusif dan juga sumber tertutup dan juga terikat dengan Google yang kita semua kenal sebagai meta data tanpa tidur, informasi pribadi dan pengumpul konten pribadi.

Kerugian ini membuatnya menjadi aplikasi no-go bagi saya meskipun pengenalan wicara itu sendiri bekerja dengan sangat baik - jauh lebih baik daripada apa pun yang saya lihat sejauh ini.


Terima kasih, ya kerugian besar, terutama yang hanya berfungsi di browser Chrome.
Franck Dernoncourt

1
Anda dapat menggunakan Google Documents di Chrome dan menggunakan opsi "Alat" »" Pengetikan Suara ... ". Mungkin persis perangkat lunak pengenal ucapan yang sama, tetapi gratis. Kemudian salin rekatkan hasil dari dokumen Anda ke mana pun Anda membutuhkan teks.
Alexis Wilke

2

Aplikasi Chrome "VoiceNote II" ( http://voicenote.in/ ) bekerja dengan baik pada mesin Xubuntu 16.04 saya. Tidak diperlukan pelatihan suara, dan pengaturannya sederhana. Satu pencarian untuk menemukannya, satu klik untuk menginstal, satu klik untuk membuat jalan pintas dan ke Desktop mengikatnya.


Terima kasih, hanya berfungsi di Google Chrome
Franck Dernoncourt

0

Saya sarankan menggunakan naga di ponsel atau tablet Anda, lalu mengirim surel kepada Anda sendiri. Ini adalah hambatan tetapi bekerja dan sangat akurat. Jika Anda bersikeras menggunakan Linux untuk ini, mendapatkan tampilan kedua akan membuat hidup lebih mudah untuk disalin dan dilewati.

Saya belum mencoba ini tetapi Anda mungkin dapat menggunakan atau mengadaptasi program Obrolan Bluetooth Python dengan naga di tablet / ponsel Anda. Mungkin juga ada aplikasi papan ketik jarak jauh untuk perangkat seluler yang dapat mendukung input dikte.

Saya akan bereksperimen dan mencoba kembali kepada Anda dengan sesuatu yang lebih pasti.


0

Saya menggunakan aplikasi KD Connect. itu bekerja dengan cukup efektif! Saya dapat mengawasi monitor sambil berbicara dengan telepon di meja. Satu-satunya downside adalah bahwa ini dilakukan melalui keyboard Google. itu bukan gratis, asli, atau open source. Komentar ini telah diposting tanpa melakukan koreksi apa pun dan mengetik


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.