Biarkan saya mulai dari awal. Cara standar menghitung cepstrum adalah sebagai berikut:
C(x(t))=F−1[log(F[x(t)])]
Dalam kasus kasus koefisien MFCC agak berbeda, tetapi masih serupa.
Setelah pra-penekanan dan windowing, Anda menghitung DFT dari sinyal Anda dan menerapkan bank filter dari filter segitiga yang tumpang tindih, dipisahkan dalam skala mel (meskipun dalam beberapa kasus skala linier lebih baik daripada mel):
Sehubungan dengan definisi cepstrum, Anda sekarang mewakili amplop spektrum (spektrum dikurangi) dalam skala frekuensi mel. Jika Anda menyatakan itu, maka Anda akan melihat bahwa itu mirip dengan spektrum sinyal asli Anda.
Langkah selanjutnya adalah menghitung logaritma koefisien yang diperoleh di atas. Ini disebabkan oleh fakta bahwa cepstrum seharusnya merupakan transformasi homomorfik yang memisahkan sinyal dari respons impuls saluran vokal, dll. Bagaimana?
s(t)h ( t )
s^( t ) = s ( t ) ⋆ h ( t )
Konvolusi domain frekuensi adalah perkalian spektrum:
S^( f) = S( f) ⋅ H( f)
catatan( a ⋅ b ) = log( a ) + log( b )
Kami juga berharap bahwa tanggapan impuls tidak berubah seiring waktu, sehingga dapat dengan mudah dihilangkan dengan mengurangi rata-rata. Sekarang Anda tahu mengapa kami mengambil logaritma dari energi band kami.
F- 1ifft
Jadi sekarang Anda melihat bahwa sekarang agak sulit untuk memahami bagaimana spektrum aslinya terlihat. Selain itu, kami biasanya mengambil hanya 12 MFCC pertama, karena yang lebih tinggi menggambarkan perubahan cepat dalam energi log, yang biasanya membuat tingkat pengenalan lebih buruk. Jadi alasan untuk melakukan DCT adalah sebagai berikut:
Awalnya Anda harus melakukan IFFT, tetapi lebih mudah untuk mendapatkan koefisien nilai sebenarnya dari DCT. Selain itu, kami tidak lagi memiliki spektrum penuh (semua tempat frekuensi), tetapi koefisien energi dalam bank filter mel, oleh karena itu penggunaan IFFT sedikit berlebihan.
Anda lihat pada gambar pertama bahwa bank filter tumpang tindih, sehingga energi dari yang bersebelahan tersebar antara dua - DCT memungkinkan untuk menghiasnya. Ingat bahwa ini adalah properti yang baik misalnya dalam kasus Model Campuran Gaussian, di mana Anda dapat menggunakan matriks kovarian diagonal (tidak ada korelasi antara koefisien lainnya), bukan yang penuh (semua koefisien berkorelasi) - ini menyederhanakan banyak hal.
Cara lain yang berhubungan dengan koefisien frekuensi mel adalah PCA (Principal Component Analysis), teknik yang hanya digunakan untuk tujuan ini. Untuk keberuntungan kami, terbukti bahwa DCT adalah pendekatan yang sangat baik untuk PCA ketika datang ke sinyal yang berhubungan dengan dekorasi, karenanya keuntungan lain dari menggunakan Discrete Cosine Transform.
Beberapa literatur:
Hyoung-Gook Kim, Nicolas Moreau, Thomas Sikora - MPEG-7 Audio dan Selebihnya: Pengindeksan dan Pengambilan Konten Audio