ini adalah pertanyaan yang membuat saya tertarik untuk beberapa waktu sekarang, terutama karena saya sedang mengerjakan pengurangan kebisingan untuk sistem pengenalan ucapan yang ada.
Sebagian besar makalah tentang teknik pengurangan kebisingan tampaknya berfokus pada bagaimana membuat bicara lebih dapat dipahami oleh manusia, atau bagaimana meningkatkan istilah yang tidak jelas seperti "kualitas bicara".
Saya yakin bahwa, dengan menggunakan kriteria seperti ini, Anda dapat mengidentifikasi filter yang membuat sinyal suara berisik lebih mudah didengarkan manusia. Namun, saya tidak yakin bahwa kriteria ini dapat dengan mudah diadaptasi ketika mencoba untuk mengevaluasi sinyal ucapan yang telah dinonasikan untuk meningkatkan akurasi sistem pengenalan ucapan.
Saya tidak benar-benar menemukan makalah yang membahas perbedaan ini. Apakah kejelasan bicara dan kualitas bicara berkorelasi dengan akurasi sistem pengenalan ucapan? Adakah langkah-langkah obyektif yang dapat mengevaluasi seberapa "baik" sinyal wicara denoised akan untuk sistem pengenalan wicara, misalnya jika juga diberi pidato bersih asli? Atau apakah satu-satunya cara untuk mengetahui seberapa baik teknik pengurangan kebisingan Anda, untuk melatih sistem pengenalan suara pada data denoised dan melihat keakuratannya?
Saya akan senang jika seseorang dapat mengarahkan saya ke arah yang benar, atau mungkin memberikan beberapa makalah yang membahas hal ini. Terima kasih sebelumnya!