Teks Terdengar Alami untuk Pidato?


86

Saya mencari beberapa yang mudah untuk menginstal perangkat lunak text to speech untuk Ubuntu yang terdengar alami. Saya telah menginstal Festival, Gespeakerdll., Tetapi tidak ada yang terdengar sangat alami. Semua sangat sintetis dan sulit dimengerti.

Adakah rekomendasi di luar sana?


Jawaban:


51

Pico2wave SVOX

TTS yang sangat minimalis, terdengar lebih baik daripada espeak atau mbrola (menurut saya). Beberapa informasi di sini .

Saya tidak mengerti mengapa pico2wave, dibandingkan dengan espeak atau mbrola, jarang dibahas. Ini kecil, tetapi terdengar sangat bagus (alami). Tanpa modifikasi Anda akan mendengar suara wanita yang terdengar alami.

DAN ... dibandingkan dengan Mbrola, ia mengenali Unit dan berbicara dengan cara yang benar!
Sebagai contoh:

  • 2 ° C → dua derajat
  • 2m → dua meter
  • 2kg → dua kilogram

Setelah instalasi saya menggunakannya dalam skrip:

#!/bin/bash
pico2wave -w=/tmp/test.wav "$1"
aplay /tmp/test.wav
rm /tmp/test.wav

Kemudian jalankan dengan teks yang diinginkan:

<scriptname>.sh "hello world"

atau baca isi seluruh file:

<scriptname>.sh "$(cat <filename>)"

Itu semua untuk memiliki TTS yang ringan dan stabil di Ubuntu.


1
Sejauh yang saya lihat, hanya menggunakan parameter cli sebagai input. Apakah ada cara saya bisa mendapatkan pico2wave untuk membaca teks dari nama file?
Carlos Eugenio Thompson Pinzón

13
pico2wavedalam paket libttspico-utilsdalam versi terbaru dari ubuntu. @ CarlosEugenioThompsonPinzóncat <filename> | xargs -I foo -0 pico2wave -w blah.wav foo
naught101

1
@ CarlosEugenioThompsonPinzón pico2wave -w a.wav "$(input.txt)"=). Setuju bahwa antarmuka CLI ini adalah desain yang buruk: tidak seperti sebagian besar CLI, dan mungkin untuk mencapai panjang OS max CLI arg .
Ciro Santilli 新疆 改造 中心 法轮功 六四 事件

1
@Koen aku tidak tahu! :-) Seperti masalah lain, cobalah untuk menghasilkan contoh minimal, misalnya menggunakanecho {1..1000}
Ciro Santilli 新疆 改造 中心 法轮功 六四 事件

1
@ user49557 Kami tidak seharusnya membajak pertanyaan orang lain, jadi mungkin Anda dapat membuat pertanyaan baru, menjelaskan apa yang sebenarnya Anda instal, dan apa yang salah, dan kemudian saya selalu dapat mencoba dan membantu Anda (tidak ada jaminan, meskipun , Saya bukan ahli: P)
Koen

22

Katakanlah!

Saya percaya saya telah menemukan perangkat lunak TTS terbaik secara gratis menggunakan ekstensi Google Chrome yang disebut "SpeakIt". Ini hanya berfungsi di browser Chrome untuk saya di Ubuntu. Itu tidak berfungsi dengan Chromium untuk beberapa alasan. SpeakIt hadir dengan dua suara wanita yang keduanya terdengar sangat realistis dibandingkan dengan semua yang lain di luar sana. Setidaknya ada empat suara pria & wanita terdaftar ekstensi Chrome jika Anda mencari di Toko Web Chrome menggunakan "TTS" sebagai permintaan Anda.

Penggunaan : Untuk digunakan di situs web. Anda menyorot teks yang ingin dibaca dan klik kanan dan "SpeakIt" atau klik ikon SpeakIt yang merapat di bar bagian atas Chrome.


Pengguna Firefox juga memiliki dua opsi. Di dalam addons Firefox, lakukan pencarian untuk TTS dan Anda harus menemukan "Klik Bicara" dan juga "Teks ke Suara". Suara-suara itu tidak sebagus suara Chrome SpeakIt, tetapi jelas dapat digunakan.

Ekstensi SpeakIt menggunakan teknologi iSpeech dan dengan harga $ 20 per tahun, situs ini dapat mengkonversi teks ke file audio MP3. Anda dapat memasukkan teks, URL, umpan RSS, serta dokumen seperti TXT, DOC, dan PDF dan hasilkan ke MP3. Anda dapat membuat podcast, menyematkan audio, dll. Ini adalah tautan , dan contoh audio mereka (tidak tahu berapa lama tautan itu akan bertahan).


3
Sayangnya tidak ada opsi browser yang berfungsi untuk file PDF. Sudahkah Anda menemukan yang melakukannya? Saya ingin dapat memilih paragraf untuk dibaca dari PDF (yaitu tidak harus menempelkan bit ke terminal atau lainnya)
James Owers

1
ekstensi ini berfungsi untuk saya di chromium 50.0.2661.94 menggunakan Debian 8.4 dan hebatnya! Saya terutama menyukai suara wanita Inggris. satu-satunya keluhan adalah bahwa jeda terlalu lama pada koma.
mulllhausen

Sering salah mengeja kata-kata dan juga membutuhkan waktu untuk mengirim teks ke server terpisah daripada hanya menggunakan sistem Anda sendiri.
Goddard

14

Pico dan espeak menyenangkan dan mudah untuk bekerja, tetapi mereka tidak terlalu baik. Suara Festival default juga tidak sebagus itu. Namun, Festival adalah kerangka bicara berbasis skema, di mana sejumlah peneliti telah membangun suara plug-in yang jauh lebih baik. Anda dapat dengan mudah melampaui kualitas pico2wave pada stok Ubuntu, karena salah satu dari suara-suara itu tersedia sebagai paket siap pakai.

Untuk membuat Festival terdengar alami, inilah yang harus dilakukan:

sudo apt-get install festival
sudo apt-get install festvox-us-slt-hts
festival -i
festival> (voice_cmu_us_slt_arctic_hts) 
festival> (SayText "Don't hate me, I'm just doing my job!")

Anda dapat melakukannya dari baris perintah dengan menggunakan -b(atau --batch) dan menempatkan setiap perintah ke dalam tanda kutip tunggal:

festival -b '(voice_cmu_us_slt_arctic_hts)' \
    '(SayText "The temperature is 22 degrees centigrade and there is a slight breeze from the west.")'

Anda bisa mendapatkan suara-suara lain yang cukup bagus dari repositori Nitech, tetapi menginstalnya cukup rewel, dan jalur defaultnya diubah sehingga referensi nama file dalam file skema yang dibundel mungkin perlu diedit secara manual untuk bekerja pada stok Ubuntu.


2
Btw, di Ubuntu 16.04, paket ini sepertinya tidak ada. Anda dapat men-download dan menginstal deb dari Debian dan akan bekerja dengan baik: packages.debian.org/sid/all/festvox-us-slt-hts/download sudo dpkg -i Downloads / festvox-kita-SLT-hts_0.2010.10. 25-2_all.deb
Jon Watte

13

Google ™ TTS sederhana

Pembaruan dari halaman proyek (2019-02) : Proyek ini saat ini tidak terawat dan akan tetap demikian untuk masa mendatang


Karena kurangnya alternatif yang lebih baik saya menulis skrip bash yang berinteraksi dengan skrip perl oleh Michal Fapso untuk menyediakan TTS melalui Google Translate. Dari deskripsi proyek:

Tujuannya adalah untuk menyediakan antarmuka yang mudah digunakan untuk output teks-ke-ucapan melalui sistem sintesis ucapan Google. Opsi cadangan menggunakan pico2wave secara otomatis menyediakan sintesis TTS jika tidak ada koneksi Internet yang ditemukan.

Seperti berdiri, pembungkus mendukung pembacaan dari input standar, file teks biasa dan pilihan X (teks yang disorot).

Fitur utamanya adalah:

  • sintesis TTS online melalui Google translate
  • sintesis TTS offline melalui pico2wave
  • mendukung berbagai bahasa yang berbeda
  • dapat membaca dari CLI, file teks dan teks yang disorot
  • mendukung membaca teks yang disorot dengan pemformatan tetap (mis. file PDF)

Instalasi dan penggunaan didokumentasikan pada halaman proyek .

Saya akan senang jika Anda mencobanya. Laporan bug dan umpan balik lainnya dipersilahkan!


Ini harus menjadi salah satu proyek paling keren yang pernah saya lihat. Cuma wow. 😲

5
Ini tidak lagi dipertahankan.
Goddard

8

Saya telah mencari tinggi dan rendah untuk text to speech untuk Ubuntu yang berkualitas tinggi. Tidak ada. Pita suara saya lumpuh jadi saya perlu TTS untuk menambahkan instruksi suara ke video Ubuntu saya . Anda bisa mendapatkan perangkat lunak teks ke ucapan komersial Linux berkualitas tinggi di sini . Ini sangat mahal. Saya akhirnya membeli Natural Reader untuk Windows (tidak berfungsi di Ubuntu di bawah Wine) seharga $ 40. Mungkin nanti saya akan mendapatkan Linux.


Bung, ada dan saya menggunakannya seperti minggu lalu setidaknya ada 5 atau 6 dan saya tidak bisa seumur hidup saya menemukan mereka sekarang, harus mencintai komunitas kami
mchid

Textaloud memiliki instruksi untuk membuat produk mereka berfungsi di bawah anggur. lihat nextup.com/forum/viewtopic.php?t=3349 Saya percaya cepstral juga memiliki port linux. Saya belum bisa membuat balabolka perangkat lunak favorit saya berfungsi. Saya telah menginstal windows 10 sebagian besar untuk pemrosesan tts. MS David baik dan mirip dengan cepstral david. Yang sebelumnya gratis jika Anda memiliki windows 10.
Bhikkhu Subhuti

6

Saya telah melakukan penelitian pada teks terbaik untuk terdengar dan disetel ke suara pidato. Di bawah ini adalah daftar dari apa yang saya pikir 5 produk teratas dalam urutan kualitas suara. Sebagian besar situs web yang terkait dengan produk ini memiliki demo interaktif yang memungkinkan Anda membuat keputusan sendiri.

  1. NeoSpeech
  2. iVona
  3. Acapela
  4. Suara-suara alami AT&T
  5. Suara CereProc

1
apakah ada tersedia untuk linux?
id don't

5

Saya menemukan suara-suara Nitech HTS di festival sangat alami dan menghibur dibandingkan suara-suara lain yang saya dengar. Lihat tautan ini tentang cara mengatur Nitech dan suara lainnya dengan festival. Saya belum menemukan gui bagus yang bisa saya gunakan untuk mengonfigurasi suara-suara itu tetapi mengaturnya melalui festival.scm masih berfungsi. Posting itu sudah sangat tua dan Anda mungkin ingin mencari direktori instalasi yang sebenarnya menggunakan perintah "loc festival"


Tampaknya sangat bagus. Ditemukan demo di sini cstr.ed.ac.uk/projects/festival/onlinedemo.html
Iacchus

2
Ya, suara Nitech adalah kepala dan bahu di atas suara Festival lainnya (kecuali suara CMU, yang juga sangat bagus.) Sayang sekali mereka sulit untuk menginstal. Ada satu suara CMU bagus yang memiliki paket default di Ubunut, itu disebut cmu_us_slt_arctic_hts dan datang dalam paket festvox-us-slt-hts. Ini jauh lebih baik daripada pico atau espeak!
Jon Watte

5

Gabungkan alat SVOX (pico) dengan LibreOffice:

Alat SVOX (pico) mudah dipasang dan menghadirkan suara berkualitas baik di Ubuntu. Pasang itu:

sudo apt-get install libttspico0 libttspico-utils libttspico-data

Anda dapat menggunakan LibreOffice dalam kombinasi dengan alat SVOX (pico) dengan menginstal ekstensi "Baca Teks" dan Anda mendapatkan "GUI" untuk perangkat lunak TTS yang luar biasa ini:

Atur opsi Baca Ekstensi Teks dengan Alat - Add-on - Baca pilihan .... Gunakan / usr / bin / python sebagai program eksternal. Pilih opsi baris perintah yang menyertakan token (PICO_READ_TEXT_PY) , Anda mungkin ingin mencoba beberapa di antaranya.

Sekarang Anda hanya perlu memilih beberapa teks dalam LO Writer, Calc, Impress atau Draw dan klik pada ikon yang ditambahkan sebagai bilah alat (wajah bahagia dengan ballon).


4

Inilah yang saya lakukan untuk memiliki pidato alami murni untuk pdf dan file teks lainnya (solusi lain tidak alami atau mereka hanya layanan berbayar). Ini sebenarnya adalah pekerjaan menggunakan chromium atau chrome tetapi bekerja dengan cepat dan mudah.

  1. Pasang SpeakIt! ekstensi pada krom atau kromium Anda.
  2. Instal PDF Viewer jika Anda menggunakan chromium (chrome sudah memiliki pdf viewer gratis) dan centang opsi 'Izinkan dalam penyamaran' dan 'Izinkan akses ke file URL' dalam pengaturan ekstensi chromium.
  3. Seret dan lepas pdf Anda ke browser.
  4. Sekarang sorot beberapa teks dan klik kanan dan pilih SpeakIt! sehingga Anda dapat mendengarkan text-to-speech murni alami.

Ada juga cara untuk membuka file lain seperti .doc dan .txt di chrome dan lakukan hal yang sama. Ada ekstensi lain untuk chrome yang menampilkan file pdf, periksa apakah cocok untuk Anda. Selain itu Anda dapat mengunggah semua jenis teks di Google Drive dan menggunakan SpeakIt! untuk membacanya untuk Anda. Ekstensi lain yang disebut 'Bicara teks' bekerja dengan cara yang sama dan memiliki ucapan alami.


Bisakah Anda menguraikan cara membuat SpeakIt membaca file pdf yang disimpan di Google Drive?
Marco Lackovic

2

Ketika mencari mesin tts yang lebih baik untuk digunakan dengan mode naratif firefox 49 baru saya menemukan pico tts (svox) - mesin TTS favorit saya.

sudo apt install espeak libttspico0 libttspico-data libttspico-utils

Bagaimana cara mengubah lebar sistem mesin sintesis bicara default?

Orang-orang di arch linux membawa saya ke jalan yang benar:

Batalkan komentar pada modul yang Anda suka dan jadikan default dalam pengaturan dispatcher ucapan:

# sudo vim /etc/speech-dispatcher/speechd.conf

[...]
# -----OUTPUT MODULES CONFIGURATION-----
# Each AddModule line loads an output module.
#AddModule "espeak"       "sd_espeak"   "espeak.conf"
AddModule "pico-generic"  "sd_generic"   "pico-generic.conf"

[...]
#DefaultModule espeak
DefaultModule pico-generic

Mulai ulang daemon:

# sudo systemctl restart speech-dispatcher.service

NAMUN, ketika memulai firefox lagi, tidak ada yang terjadi. Menurut tautan di atas (posting forum lengkung # 10 dan # 16) berfungsi dengan festival (tidak mencoba), tetapi pengirim pesan untuk pico tidak mencantumkan suara yang tersedia. Itu tidak akan berjalan.

Setiap ide di luar sana akan sangat dihargai ;-)


1

Program text-to-speech favorit saya disebut Magic English, tetapi seperti Natural Reader yang disebutkan oleh Joe Steiger, ini adalah program Windows dan saya tidak yakin apakah itu akan berjalan di bawah Wine.

AT&T Natural Voices tersedia online sebagai demo, tetapi itu lebih merupakan solusi daripada solusi ...


1

Google ™ TTS sederhana

Pico, mbrola, cmu, festival, flite, semua SUCK di 2017 (Mereka luar biasa di tahun 90-an). Pidato alami AT&T (yang fantastis) bukan linux compat dan tidak gratis, oleh karena itu kami menggunakan Google

git clone https://github.com/Glutanimate/simple-google-tts.git
sudo apt install xsel libnotify-bin libttspico0 libttspico-utils libttspico-data libwww-perl libwww-mechanize-perl libhtml-tree-perl so$
cd simple-google-tts
sudo ln -s `pwd`/simple_google_tts /usr/local/bin
simple_google_tts en "Text to speech is now installed"
cd -

Ini adalah duplikat dari jawaban Glutanimate (penulis proyek itu). Juga: "Pembaruan status: Proyek ini saat ini tidak terawat dan akan tetap demikian di masa mendatang." Dia menyarankan beberapa alternatif
Pablo A

1

gTTS

gTTS ( Google Text-to-Speech ), pustaka Python dan alat CLI untuk berinteraksi dengan API teks-ke-ucapan Google Translate. Menulis mp3data yang diucapkan ke file, objek seperti file (bytestring) untuk manipulasi audio lebih lanjut, atau stdout.

Cons : CLI-only. Harus daring karena harus meminta titik akhir terbuka Google publik.

sudo -H pip install gTTS  # Install

Pemakaian

gtts-cli 'hello' --output hello.mp3
gtts-cli -l es 'Nadie es patria, todos lo somos' | play -t mp3 -

Dokumentasi dan lebih banyak contoh

Lainnya

Beberapa sudah disebutkan


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.