Saya mencoba membandingkan 2 sampel pidato dan menilai kesamaan. Pikirkan seseorang yang mencoba mengulangi frasa, dan kemudian membandingkan 2 file audio tersebut.
Saya mulai dengan menerapkan algoritma MFCC (http://en.wikipedia.org/wiki/Mel-frequency_cepstrum). Saya menghitung MFCC dari kedua sampel audio, yang memberi saya sekitar 500 frame audio (masing-masing 10ms, dengan 30% tumpang tindih seperti sebelumnya) yang memiliki 14 atau lebih koefisien MFCC. Jadi matriks 500x14 untuk setiap sinyal audio.
Lalu saya melakukan pendekatan naif dengan hanya membedakan matriks. Ini tidak memberikan hasil yang sangat menjanjikan. Separuh dari waktu ketika saya membandingkan sampel audio yang sangat berbeda (di mana frasa yang berbeda diucapkan), saya mendapatkan sedikit perbedaan daripada membandingkan audio di mana saya mencoba mengulangi frasa yang sama! Ini jelas mundur dan tidak bisa memberi saya algoritma penilaian yang baik.
Bagaimana saya bisa memperbaiki ini? Saya pikir MFCC adalah bagian yang sangat penting dalam pemrosesan pidato, meskipun jelas saya perlu berbuat lebih banyak dengannya.