Saya mengekstrak klip audio dari file video untuk pengenalan suara. Video-video ini berasal dari ponsel / perangkat buatan tangan lainnya dan karenanya mengandung banyak suara. Saya ingin mengurangi kebisingan latar belakang audio sehingga ucapan yang saya sampaikan ke mesin pengenalan suara saya jelas. Saya menggunakan ffmpeg untuk melakukan semua hal ini, tetapi saya terjebak pada fase pengurangan kebisingan.
Sampai sekarang saya telah mencoba filter berikut:
ffmpeg-20140324-git-63dbba6-win64-static\bin>ffmpeg -i i nput.wav -filter_complex "highpass=f=400,lowpass=f=1800" out2.wav
ffmpeg -i i nput.wav -af "equalizer=f=1000:width_type=h:width=900:g=-10" output.wav
ffmpeg -i i nput.wav -af "bandreject=f=1200:width_type=h:width=900:g=-10" output.wav
Tetapi hasilnya sangat mengecewakan. Alasan saya adalah bahwa sejak pidato berada di bawah kisaran 300-3000 hz saya dapat menyaring semua frekuensi lain untuk menekan kebisingan latar belakang. Apa yang saya lewatkan?
Saya juga membaca tentang filter weiner yang dapat digunakan untuk peningkatan kemampuan berbicara dan menemukan ini tetapi saya tidak yakin bagaimana menggunakannya.