Alasan mengapa Anda melihat transformasi Fourier diterapkan dua kali dalam proses ekstraksi fitur adalah bahwa fitur didasarkan pada konsep yang disebut cepstrum. Cepstrum adalah permainan pada spektrum kata - pada dasarnya idenya adalah untuk mengubah sinyal ke domain frekuensi oleh Fourier transform, dan kemudian melakukan transformasi lain seolah-olah spektrum frekuensi adalah sinyal.
Sementara spektrum frekuensi menggambarkan amplitudo dan fase dari setiap pita frekuensi, cepstrum mencirikan variasi antara pita frekuensi. Fitur-fitur yang diturunkan dari cepstrum ditemukan untuk lebih menggambarkan pembicaraan daripada fitur-fitur yang diambil langsung dari spektrum frekuensi.
Ada beberapa definisi yang sedikit berbeda. Transformasi cepstrum awalnya didefinisikan sebagai Transformasi Fourier -> logaritma kompleks -> Transformasi Fourier [1]. Definisi lain adalah transformasi Fourier -> logaritma kompleks -> invers Transformasi Fourier [2]. Motivasi untuk definisi yang terakhir adalah kemampuannya untuk memisahkan sinyal yang berbelit-belit (ucapan manusia sering dimodelkan sebagai konvolusi dari eksitasi dan saluran vokal).
Pilihan populer yang terbukti berkinerja baik dalam sistem pengenalan ucapan adalah menerapkan bank filter non-linear dalam domain frekuensi (binning yang Anda maksud) [3]. Algoritme tertentu didefinisikan sebagai transformasi Fourier -> kuadrat besarnya -> bank filter mel -> logaritma nyata -> transformasi kosinus diskrit.
Di sini DCT dapat dipilih sebagai transformasi kedua, karena untuk input bernilai nyata, bagian nyata dari DFT adalah jenis DCT. Alasan mengapa DCT lebih disukai adalah bahwa outputnya kira-kira terkait dengan dekorasi. Fitur yang terkait dengan dekorasi dapat dimodelkan secara efisien sebagai distribusi Gaussian dengan matriks kovarians diagonal.
[1] Bogert, B., Healy, M., dan Tukey, J. (1963). The Quefrency Alanysis dari Time Series untuk Echoes: Cepstrum, Pseudo-Autocovariance, Cross-Cepstrum dan Saphe Cracking. Dalam Prosiding Simposium tentang Analisis Rangkaian Waktu, hal. 209-243.
[2] Oppenheim, A., dan Schafer, R. (1968). Analisis Homomorfik Pidato. Dalam Transaksi IEEE pada Audio dan Electroacoustics 16, hal. 221-226.
[3] Davis, S., dan Mermelstein, P. (1980). Perbandingan Representasi Parametrik untuk Pengakuan Kata Bersuku Satu dalam Kalimat yang Diucapkan Terus-menerus. Dalam Transaksi IEEE pada Akustik, Pidato dan Pemrosesan Sinyal 28, hal. 357-366.