Apa perbedaan reduksi untuk pengenalan wicara berbeda dari reduksi noise yang seharusnya membuat wicara lebih “dapat dipahami” bagi manusia?

ini adalah pertanyaan yang membuat saya tertarik untuk beberapa waktu sekarang, terutama karena saya sedang mengerjakan pengurangan kebisingan untuk sistem pengenalan ucapan yang ada.

Sebagian besar makalah tentang teknik pengurangan kebisingan tampaknya berfokus pada bagaimana membuat bicara lebih dapat dipahami oleh manusia, atau bagaimana meningkatkan istilah yang tidak jelas seperti "kualitas bicara".

Saya yakin bahwa, dengan menggunakan kriteria seperti ini, Anda dapat mengidentifikasi filter yang membuat sinyal suara berisik lebih mudah didengarkan manusia. Namun, saya tidak yakin bahwa kriteria ini dapat dengan mudah diadaptasi ketika mencoba untuk mengevaluasi sinyal ucapan yang telah dinonasikan untuk meningkatkan akurasi sistem pengenalan ucapan.

Saya tidak benar-benar menemukan makalah yang membahas perbedaan ini. Apakah kejelasan bicara dan kualitas bicara berkorelasi dengan akurasi sistem pengenalan ucapan? Adakah langkah-langkah obyektif yang dapat mengevaluasi seberapa "baik" sinyal wicara denoised akan untuk sistem pengenalan wicara, misalnya jika juga diberi pidato bersih asli? Atau apakah satu-satunya cara untuk mengetahui seberapa baik teknik pengurangan kebisingan Anda, untuk melatih sistem pengenalan suara pada data denoised dan melihat keakuratannya?

Saya akan senang jika seseorang dapat mengarahkan saya ke arah yang benar, atau mungkin memberikan beberapa makalah yang membahas hal ini. Terima kasih sebelumnya!

— marlonfl
sumber

Saya tidak benar-benar menemukan makalah yang membahas perbedaan ini.

Ada seluruh buku tentang hal ini:

Pengenalan Pidato Otomatis yang Kuat Edisi 1

Apakah kejelasan bicara dan kualitas bicara berkorelasi dengan akurasi sistem pengenalan ucapan?

Biasanya tidak, biasanya pengurangan noise merusak fitur dengan cara yang tidak terduga dan mengurangi keakuratan pengenalan suara.

Adakah langkah-langkah obyektif yang dapat mengevaluasi seberapa "baik" sinyal wicara denoised akan untuk sistem pengenalan wicara, misalnya jika juga diberi pidato bersih asli? Atau apakah satu-satunya cara untuk mengetahui seberapa baik teknik pengurangan kebisingan Anda, untuk melatih sistem pengenalan suara pada data denoised dan melihat keakuratannya?

Kedua. Selain itu pengurangan kebisingan berbasis fitur sebenarnya menghilangkan informasi penting dari spektrum sehingga Anda tidak dapat memperbaiki keakuratan sistem bersih. Untuk alasan itu pendekatan modern adalah melakukan pelatihan multi-gaya pada data bising daripada menggunakan algoritma pengurangan kebisingan sebelumnya. Itu berakhir dengan pengakuan yang lebih akurat.

— Nikolay Shmyrev
sumber

Terima kasih atas jawaban anda Saya kira saya tidak mencari kertas yang tepat. Saya akan melihat buku itu.

— marlonfl

Ok, jika Anda ingin makalah Anda dapat memeriksa hasil tantangan CHIME-4, sebagian besar canggih di ASR yang kuat.

— Nikolay Shmyrev