Bagaimana cara meningkatkan materi audio ucapan 22,05 kHz untuk keperluan mendengarkan hingga 44,1 kHz?


1

Saya telah menemukan novel radio yang sangat menarik di web, dan saya ingin menarik perhatian salah satu kenalan saya kepadanya. Sayangnya materi audio memiliki kualitas buruk, hanya 22,05 kHz dan 1 saluran, mono. Namun itu tidak mengandung musik, hanya ucapan. Secara umum itu terdengar seperti radio tua, atau telepon tua. Saya ingin meningkatkannya sedikit jika mungkin, sebelum mengirimnya ke teman saya. Perangkat lunak apa yang harus saya gunakan, dan operasi apa yang harus saya lakukan pada file audio untuk membuatnya terdengar sedikit lebih baik?


1
Bisakah Anda membagikan sampel audio?
Attie


1
Mungkin Anda bisa menjalankannya melalui model rekonstruksi pidato yang sangat canggih, seperti dijelaskan di sini . Saya sama sekali tidak akrab dengan persyaratan.
Daniel B

Jawaban:


3

Jika laju sampel untuk merekam suara adalah 22kHz, Anda tidak bisa hanya meningkatkannya dengan mengaturnya menjadi 44kHz. Anda dapat membandingkannya dengan gambar bitmap: Anda tidak akan mendapatkan detail lebih banyak dengan menjadikan "piksel lebih besar". Sama dengan mono / stereo. Jika Anda memiliki rekaman mono, Anda tidak dapat membuatnya menjadi rekaman stereo. Ini hanya bekerja sebaliknya, misalnya membuat stereo menjadi mono.

Namun, jika ada "masalah" lainnya, misalnya bagian-bagian tertentu dari rekaman tidak memiliki volume yang cukup, Anda mungkin dapat memperbaiki ini atau menghaluskan perubahan mendadak dll. Tetapi ini tergantung pada jenis masalah, tidak ada solusi umum. Anda harus terbiasa dengan topik tersebut sehingga Anda tahu apa "masalah teknis" itu dan kemudian Anda harus mencoba mencari solusinya. Jika Anda memiliki masalah dalam menerapkan solusi ini (menemukan solusi untuk masalah akustik yang sangat spesifik) itu akan menjadi titik yang baik untuk bertanya lagi pada topik tertentu.


Begitu, tetapi ketika saya memperbesar gambar digital, gambar-gambar itu juga di-resample dalam arti tertentu, kita dapat mengatakan bahwa gambar tersebut diperbesar ulang. Dan ada algoritma penskalaan ulang yang buruk, baik, dan bahkan lebih baik untuk gambar: tetangga terdekat, bilinear, bicubic, lanczos, dll, untuk menginterpolasi piksel yang hilang. Saya pikir pasti ada pendekatan serupa untuk file audio juga.
Konstantin

2
@Konstantin ya, ada beberapa "filter" atau manipulasi lain yang dapat Anda gunakan pada audio, analog dengan cara Anda meningkatkan gambar. Namun sayangnya tidak ada metode umum untuk membuat gambar "lebih baik". Anda dapat mencoba beberapa algoritma tanpa benar-benar mengetahui apa yang Anda lakukan, dan lihat apakah Anda menyukai gambar dengan lebih baik. Jika itu tidak berhasil, Anda perlu lebih tahu bagaimana caranya sehingga Anda dapat menganalisis masalah spesifik Anda. Sama berlaku untuk audio.
Albin

3

22,05 kHz bukan " kualitas buruk " sejauh kata yang diucapkan ... sebagian besar perpustakaan Audible memiliki tingkat sampel 22,05 kHz - bahkan untuk file " berkualitas tinggi ".

Jika rekaman " terdengar buruk ", maka itu mungkin karena sesuatu yang lain:

  • bit-depth (8-bit vs 16-bit)
  • kompresi (MP3 kecepatan rendah vs AAC atau OGG)
  • mikrofon (murah vs tidak begitu murah)
  • posisi mikrofon vs pembaca
  • media asli (analog vs digital / kaset vs MiniDisc atau PC)
  • sampel up sebelumnya dari laju sampel yang jauh lebih rendah (yang Anda coba lakukan sekarang).

Either way, informasinya sekarang hilang, dan akan sulit untuk kembali. Yang terbaik yang dapat Anda lakukan tanpa menghabiskan banyak waktu untuk itu adalah mengubah EQ agar terdengar lebih dapat diterima.


Sampel yang Anda berikan tidak terdengar terlalu buruk bagi saya sama sekali (meskipun saya tidak berbicara bahasa, jadi mungkin ada beberapa nuansa yang hilang ...).

Saya ingin sedikit mengubah EQ dan " menormalkan " audio untuk menaikkan level - Anda mungkin menemukan bahwa apa yang Anda anggap sebagai rekaman buruk sebenarnya adalah kebisingan di sistem Anda menjadi lebih jelas dengan menaikkan volume tinggi.

Perubahan gelombang seperti yang ditunjukkan di bawah ini (menggunakan Audacity), sebelum (atas) dan setelah (bawah):

Audacity, sebelum (atas) dan sesudah (bawah)

Ada sedikit gema dalam rekaman (yang kemungkinan akan berasal dari ruangan, dan mungkin agak terlalu jauh dari mikrofon). Namun ada kebisingan latar belakang minimal (maka bagian sempit dari gelombang), tidak ada distorsi, dan hanya satu pop di seluruh file (tidak ditunjukkan di atas).


2

Seperti yang telah disebutkan, merekam pada 22,05 kHz untuk kata yang diucapkan tidak dengan sendirinya 'buruk'; tetapi juga tidak dapat benar-benar 'diperbaiki' karena tidak ada informasi dalam rekaman untuk ditekankan. Anda hanya dapat bekerja dengan apa yang sudah ada di sana.

Beberapa penjelasan ... Suara manusia benar-benar paling berbeda sekitar 2 - 6 kHz. Di situlah semua konsonan berada & apa yang benar-benar membantu pendengar untuk memutuskan apa yang sebenarnya dikatakan; itu juga mengapa meletakkan jari-jari Anda di telinga mengurangi daya tangkap, terutama menghalangi frekuensi yang lebih tinggi ini.
Ada informasi dalam pidato di atas 6kHz, tetapi jauh di atas itu & oleh 11kHz hanya ada sedikit informasi berguna yang tersisa.

Jadi - untuk kata yang diucapkan mereka menggunakan 22,05 kHz sebagai frekuensi sampel.
Ada analisis audio yang sangat kompleks yang disebut Nyquist-Shannon Sampling Theorem yang sering disebut sebagai Nyquist Limit, yang pada dasarnya bermuara pada
"Frekuensi audio tertinggi yang dapat direkam dalam file audio adalah setengah frekuensi pengambilan sampel."
Itu setara dengan sekitar 11kHz pada rekaman 22.05kHz.
Itu cukup untuk suara manusia.

Ini juga berarti tidak ada lagi informasi di atas yang dapat digunakan, bahkan jika Anda mengubah frekuensi sampling hingga 44,1 kHz [kualitas audio CD].

Aktif ke buku audio Anda.
Masalahnya, seperti yang saya dengar, adalah bahwa pembaca agak dekat dengan mic. Ini menekankan frekuensi yang lebih rendah, karena sesuatu yang disebut efek kedekatan . Tidak perlu membahasnya secara penuh di sini, tetapi secara keseluruhan itu membuat rekamannya sedikit lebih beradab.
Itu juga agak dikompresi - itu memiliki rentang dinamis berkurang sehingga bit yang tenang lebih keras & bit keras lebih tenang. Ini seharusnya membantu kejelasan, tetapi itu tidak dilakukan dengan sebaik yang seharusnya, & cenderung lebih menekankan bass. Satu-satunya alasan yang dapat saya pikirkan untuk melakukan ini adalah membuat pembaca terdengar "lebih jantan, lebih berwibawa" .. tetapi tidak benar-benar membantu kejelasan sedikit pun: /

Yang perlu kita lakukan adalah mengurangi bass, menekankan highs & mencoba untuk mengurangi penekanan pada beberapa kompresi berat.
Sebagian besar ini dapat dilakukan di Audacity, ke tingkat yang lebih besar atau lebih kecil, tapi saya lebih nyaman di Cubase, jadi saya akan tunjukkan di sana ...

Kebanyakan orang akan memberitahu Anda untuk Menormalkan file terlebih dahulu.
Jangan lakukan ini dulu - Anda akan membunuh ruang kepala potensial Anda.
Jika Anda perlu melakukannya sama sekali, lakukan yang terakhir .

Juga perhatikan Anda tidak dapat "membatalkan" kompresi yang telah diterapkan - yang akan setara dengan mendapatkan telur & tepung kembali dari kue panggang - sebagai gantinya Anda hanya dapat mencoba menguranginya di daerah yang paling parah terkena dampak.

Jika semua yang harus Anda kerjakan adalah Penyetaraan, maka Anda dapat mencoba mengurangi level di bawah 250Hz, dengan perlahan bergulir di bawahnya. Anda kemudian dapat mencoba mendapatkan beberapa konsonan kembali dengan menambahkan kemiringan yang berlawanan di atas mungkin 2 atau 3 kHz.

Saya melihat klik yang menjengkelkan, atau menampar bibir sekitar pukul 3:40, yang saya pilih & ditolak menjadi nol - Anda bisa mendapatkan semua yang pintar dengan de-clicker, tetapi itu tidak sepadan dengan usaha.

Senjata pilihan saya untuk operasi penyelamatan seperti ini adalah kompresor multi-band.
Saya menemukan comp multi band gratis untuk Audacity, meskipun saya belum mencobanya sendiri, jadi YMMV - https://www.gvst.co.uk/gmulti.htm

Saya menggunakan Waves LinMB yang jauh lebih mahal tetapi ide umumnya sama. Ini adalah bagaimana saya mengaturnya ...

masukkan deskripsi gambar di sini

Dari gambar, Anda dapat melihat saya memukul ujung bawah sangat keras, untuk mencoba menghapus ledakan berlebihan itu. Bagian tengah aku hampir tidak tersentuh. Tertinggi saya telah meningkatkan level output mereka, sementara pada saat yang sama menerapkan sedikit kompresi supaya beberapa S yang lebih berat dll tidak menjadi terlalu punchy. Juga, pada titik ini saya belum meningkatkan volume keseluruhan sama sekali - kami masih memiliki banyak ruang kepala untuk bermain & yang terbaik adalah ketika ketika Anda mengubah efek Anda masuk dan keluar untuk perbandingan bahwa Anda tidak hanya membodohi diri sendiri dengan volume perubahan.

Contoh cepat -
sebelum ...

https://soundcloud.com/graham-lee-15/antal-vegh-orig?in=graham-lee-15/sets/intelligibility-fix

setelah...

https://soundcloud.com/graham-lee-15/antal-vegh-linmb?in=graham-lee-15/sets/intelligibility-fix

Pada titik ini, setelah Anda puas dengan kedengarannya, sekarang Anda bisa menjadi normal.

Perhatikan contoh saya pada tingkat sampel yang lebih tinggi murni karena saya tidak dapat mengekspor langsung pada 22,05. Ini tidak secara material mempengaruhi hasil dengan cara apa pun.


Salah satu trik dari bekerja untuk gambar adalah meningkatkan kedalaman bit saat bekerja dengan gradien dan kemudian kembali turun ke 8-bit. Ini mengurangi atau bahkan menghilangkan pita visual. Saya bertanya-tanya apakah teknik seperti itu berguna dalam konteks ini (menambah kedalaman bit, menerapkan filter dll, lalu gentar kembali).
Yorik

Berpotensi. tbh, saya mengangkat ini ke 16-bit 44.1 untuk dikerjakan, tapi saya tidak yakin bagaimana sesuatu seperti Audacity akan menghadapinya. Dalam & dari dirinya sendiri, seharusnya tidak ada bedanya kecuali Anda mensintesis harmonik yang lebih tinggi, yang saya pikir akan menjadi jembatan terlalu jauh untuk apa yang tampaknya menjadi permintaan entry-level. Juga, untuk kata solo yang diucapkan, Anda benar-benar bisa lolos dengan cutoff 6kHz & masih mempertahankan kejelasan penuh , bahkan jika bukan 'nice hi-fi'. Pikirkan apa yang dilakukan ponsel terhadap sinyal audio: /
Tetsujin

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.