Cara pengenalan suara dilakukan dengan HTK (atau alat lain) mirip dengan cara pengenalan suara dilakukan di otak. Ketika Anda mendengar sebuah kata, Anda langsung memecahnya menjadi ponsel penyusunnya dan kemudian membandingkan ponsel dengan "model" mental internal dari ponsel tersebut . "Model-model" ini dibangun selama bertahun-tahun mendengarkan pembicaraan dan memberi Anda kemampuan untuk membedakan antara kalimat-kalimat yang terdengar mirip seperti "Cara merusak pantai yang bagus" dan "Cara mengenali ucapan". Pengenalan ucapan dengan HTK atau skema berbasis model lainnya bekerja dengan cara yang sama. Di sini, dalam beberapa langkah, adalah bagaimana Anda melakukannya:
- Anda mengambil sinyal suara input dan mengubahnya menjadi representasi vektor fitur.
- Ambil banyak kalimat dan lakukan langkah 1 di masing-masing kalimat.
- Gunakan vektor fitur pada langkah 2 untuk membangun model statistik untuk masing-masing ponsel / kata dalam kalimat (ada sejumlah telepon / kata yang bertentangan dengan jumlah tak terbatas cara mengatakannya - sehingga Anda mengurangi yang tidak diketahui dengan pemodelan ).
- Ketika sebuah kata baru masuk, pisahkan ke telepon dan bandingkan dengan masing-masing model yang dikenal. Urutan ponsel dengan probabilitas tertinggi menang!
Semua langkah di atas sangat penting untuk menyelesaikan tugas pengenalan ucapan. Dengan menguraikan suara menjadi vektor fitur, Anda membawanya ke ruang model, memberikannya representasi yang membuatnya lebih cocok untuk membuat-model-keluar-dari daripada representasi lain (katakanlah representasi amplitudo waktu). Sebagian besar representasi tersebut terletak pada frekuensi, atau domain frekuensi-waktu. Salah satu representasi yang paling populer adalah MFCC (Koefisien Frekuensi Cepstral Mel). Di satu sisi, teknik ini meniru respons pendengaran manusia dengan seperangkat filter. Sinyal input didekomposisi dengan set filter yang memiliki jarak logaritmik dari frekuensi pusatnya. Koefisien MFCC dari satu kalimat (misalnya) kemudian digunakan untuk memodelkan masing-masing ponsel dari mana kalimat itu dibuat. Sebagai contoh, pertimbangkan,
Kalimat: HI. Deskripsi fonetik: hh aa ey
Ketika Anda memasukkan koefisien MFCC ke dalam HTK, ia akan mengaitkan koefisien MFCC dari sebagian kalimat dengan hh, yang lain dengan aa dan seterusnya. Ketika ini diulang berkali-kali, model untuk ponsel mulai terbentuk.
HTK menggunakan alat HCopy
untuk mengubah kalimat input menjadi representasi fitur-vektornya. Ada banyak "rasa" untuk MFCC juga (representasi E_D_A atau E_D_A_Z). Sebaiknya baca dokumentasi HCopy
di dalam htkbook.
Koefisien MFCC ditulis ke file dengan ekstensi .mfc
oleh HTK. Tidak mungkin membaca file itu menggunakan salah satu editor teks karena (saya pikir) koefisien ditulis dalam biner. Anda dapat mencoba membaca file dengan C
.
HTH.