Sambil mencari jawaban untuk masalah ini, saya menemukan papan ini jadi memutuskan untuk mengirim pertanyaan saya dari Stack Overflow.
Saya mencari metode untuk menentukan kesamaan antara segmen audio dan suara manusia, yang diekspresikan secara numerik.
Saya telah mencari sedikit, tetapi apa yang saya temukan sejauh ini (terperinci di bawah) tidak benar-benar cocok dengan yang saya butuhkan:
Salah satu metode adalah menggunakan perangkat lunak pengenalan suara untuk mendapatkan kata-kata dari segmen audio. Namun, metode ini tidak dapat menghasilkan seberapa mirip "audio" dengan ucapan manusia; sering dapat mengetahui apakah ada kata-kata dalam audio, tetapi jika tidak ada kata-kata yang pasti, itu tidak dapat mengatakan bahwa audio adalah kata-kata seperti itu.
Contoh: CMU Sphinx , Dragonfly , SHoUTMetode yang lebih menjanjikan disebut sebagai Voice Activity Detection (VAD). Namun, ini cenderung memiliki masalah yang sama: algoritma / program menggunakan VAD cenderung hanya mengembalikan apakah ambang aktivitas telah tercapai atau tidak, dan tidak ada nilai "kesamaan" sebelum atau setelah ambang tersebut. Atau, banyak yang hanya mencari volume, bukan kesamaan dengan bicara manusia.
Contoh: Speex , Listener , FreeSWITCH
Ada ide?