Saya telah mengembangkan sistem bukti konsep untuk pengenalan suara menggunakan model mfcc dan markov tersembunyi. Ini memberikan hasil yang menjanjikan ketika saya menguji sistem pada suara yang dikenal. Meskipun sistem, ketika suara yang tidak dikenal dimasukkan mengembalikan hasil dengan kecocokan terdekat dan skor tidak berbeda untuk merancang itu adalah suara yang tidak diketahui misalnya::
Saya telah melatih 3 model markov tersembunyi satu untuk berbicara, satu untuk air keluar dari keran air dan satu untuk mengetuk meja. Lalu saya mengujinya pada data yang tidak terlihat dan mendapatkan hasil berikut:
input: speech
HMM\knocking: -1213.8911146444477
HMM\speech: -617.8735676792728
HMM\watertap: -1504.4735097322673
So highest score speech which is correct
input: watertap
HMM\knocking: -3715.7246152783955
HMM\speech: -4302.67960438553
HMM\watertap: -1965.6149147201534
So highest score watertap which is correct
input: knocking
HMM\filler -806.7248912250212
HMM\knocking: -756.4428782636676
HMM\speech: -1201.686687761133
HMM\watertap: -3025.181144273698
So highest score knocking which is correct
input: unknown
HMM\knocking: -4369.1702184688975
HMM\speech: -5090.37122832872
HMM\watertap: -7717.501505674925
Here the input is an unknown sound but it still returns the closest match as there is no system for thresholding/garbage filtering.
Saya tahu bahwa dalam kata kunci, mencari suara OOV (out of vocabulary) dapat disaring menggunakan model sampah atau pengisi tetapi dikatakan dilatih menggunakan seperangkat kata yang tidak diketahui di mana ini tidak dapat diterapkan ke sistem saya karena saya tidak tahu semua suara yang dapat direkam oleh sistem.
Bagaimana masalah serupa diselesaikan dalam sistem pengenalan ucapan? Dan bagaimana saya bisa menyelesaikan masalah saya untuk menghindari kesalahan positif?