Sebagai tindak lanjut dari pertanyaan saya sebelumnya, saya bertanya-tanya apakah ada perpustakaan pendeteksi wicara. Dengan deteksi ucapan yang saya maksudkan melewati buffer audio dan mendapatkan kembali indeks di mana pidato dimulai dan berhenti. Jadi jika saya memiliki 10 detik pengambilan sampel audio pada 44kHz, saya akan mengharapkan array angka seperti:
44000
88000
123000
190334
...
Ini akan menunjukkan misalnya bahwa pidato dimulai satu detik dan kemudian selesai pada titik dua detik, dll.
Yang tidak saya cari adalah pengenalan ucapan yang menulis teks dari kata yang diucapkan. Sayangnya ini adalah apa yang saya lihat banyak ketika saya google 'deteksi wicara'.
Akan lebih bagus jika perpustakaan berada di C, C ++ atau bahkan Objective-C karena saya sedang menulis aplikasi untuk iPhone.
Terima kasih!