Mengapa encoder MP3 menggunakan transformasi Fourier cepat sebelum menerapkan model psikoakustik?

Karlheinz Brandenburg menggambarkan encoder MP3 seperti ini:

Saya menandai FFT karena saya tidak yakin mengapa itu perlu dilakukan. Mengapa model psikoakustik tidak dapat diaplikasikan pada garis yang disebut setelah discrete cosine transform (MDCT) yang dimodifikasi tanpa melakukan FFT?

Saya punya beberapa literatur di sini, mengatakan resolusi frekuensinya tidak cukup akurat. Apakah ini berarti, membagi sinyal asli menjadi 576 baris (seperti bank filter dan MDCT lakukan) tidak cukup akurat untuk model psikoakustik untuk bekerja dengan baik? Apakah FFT lebih akurat?

algorithms data-compression fourier-transform

— Fonolog
sumber

Filterbank dan saluran MDCT adalah sumber kesalahan yang coba diminimalisir oleh model Psycho-akustik, yaitu saluran atas adalah lossy. Dari angka-angka yang terlihat benar - komponen frekuensi 1024 dalam sinyal sebenarnya dibandingkan dengan 576 dalam pipa kompresi.

— KWillets

Saya akan menyarankan penjelasan yang lebih rinci tentang mp3 codec .

FFT diterapkan pada sinyal domain waktu, jadi sebenarnya tidak menggunakan hasil dari MDCT. Input ke model psikoakustik adalah dalam domain frekuensi, maka FFT.

Setidaknya ada beberapa alasan untuk melakukannya. MDCT dengan filterbank beroperasi pada potongan yang tumpang tindih yang sangat pendek, memaksimalkan kompresi - FFT menggunakan sampel yang lebih panjang dan memiliki resolusi spektral yang lebih baik. (Sulit untuk membandingkan karena MDCT beroperasi sebagai transformasi jangka pendek; jika ini sangat penting bagi Anda, saya harus membuat perbandingan itu.)

Anda dapat memikirkan filterbank MDCT dengan cara yang sama seperti kuantisasi JPEG (ini adalah analogi yang sangat baik, karena keduanya menggunakan DCT) dan FFT untuk mendeteksi artefak DCT dari kompresi. Kemudian, model psikoakustik merapikan kesalahan untuk jatuh di bawah ambang "dengar", tetapi untuk melakukan itu, sampel domain waktu (di sini PCM - Modulasi Kode Pulsa tidak cukup, karena pergeseran frekuensi tiba-tiba terdengar sebagai retakan) - jadi menggunakan domain frekuensi untuk mendeteksi diskontinuitas seperti itu dan kemudian memuluskannya dalam domain waktu.

Dua hal tidak dijelaskan dalam artikel tetapi sangat penting. Ketika perbedaan PCM, tinggi, pembicara memiliki jarak lebih untuk melakukan perjalanan, sehingga ada penundaan waktu dan tergantung pada kemampuan speaker, itu mungkin hanya menyebabkan getaran tambahan, yang merupakan suara yang sangat berbeda dari speaker. Bagian kedua adalah di antara garis-garis, versi sinyal terkuantisasi diubah kembali untuk membandingkannya dengan suara asli dan memeriksa seberapa jauh penyimpangannya.

Berdasarkan pada jenis masking windows (berdasarkan perbandingan FFT dan MDCT terbalik) dipilih untuk mengkompensasi lebih baik untuk penyimpangan yang terdengar dari aslinya.

Manusia merasakan pergeseran frekuensi lebih baik daripada perubahan amplitudo, sehingga filter beroperasi di kedua domain sekaligus, dan sinyal terkuantisasi dibalik dan perataan dilakukan kembali dalam domain waktu.

Ya, resolusi MDCT dengan filterbanks tidak cukup, tetapi ini adalah bagian di mana bagian yang adil dari kompresi terjadi, dan kemudian ditutup. Tetapi model psikoakustik memiliki resolusi spektral seperti yang diberikan di koran.

Ya, FFT lebih akurat karena mendapatkan sampel yang lebih panjang, sehingga memiliki resolusi yang lebih baik di antara nampan.

Catatan Kaki
The (M) DCT umumnya diimplementasikan dengan melakukan FFT, jadi ini tidak ada hubungannya dengan transformasi yang digunakan. MDCT dapat dilihat sebagai Short-Term Fourier Transform yang sedikit dimodifikasi dengan filter yang dipilih secara khusus (bank filter menyerupai skala Mel untuk pengenalan suara).

FFT digunakan lebih lama, menyediakan algoritme yang lebih mudah untuk perpindahan nada dan lebih mudah diterapkan pada suara. (M) DCT meminimalkan jumlah komponen, artinya kita dapat memotong lebih banyak data dari hasil daripada dari FFT.

Tetapi dalam hal suara komponen-komponen tersebut tidak stabil, memotong selalu mis. Dua tempat sampah akan memberikan distorsi yang lebih besar antara frame berturut-turut daripada melakukan operasi yang setara pada hasil FFT. Jadi, koneksi antara FFT dan apa yang kita dengar lebih besar dari (M) DCT dan apa yang kita dengar, tetapi kompresi yang tersedia adalah sebaliknya.

— Jahat
sumber