Mendeteksi ucapan manusia dalam audio waktu nyata di ponsel

Saya mencari untuk mengembangkan aplikasi Android. Sebagai bagian dari fungsionalitas, aplikasi akan perlu untuk mengambil sampel audio secara acak 3-5 detik dan mengklasifikasikannya sebagai ucapan manusia atau tidak. Saya mengerti bahwa konsep ini disebut Deteksi Aktivitas Suara?

Apa yang akan menjadi cara terbaik untuk menerapkan ini pada ponsel. Saya mengembangkan sistem dasar menggunakan fitur dan ambang batas berbasis energi. Saya berharap menemukan sesuatu yang kurang rentan terhadap kebisingan, mungkin menggunakan fitur seperti MFCC atau forman? Saya memang membaca sejumlah makalah, tetapi kebanyakan dari mereka akan meminta saya untuk mengumpulkan data dan melatih model. Apakah ada pustaka atau kerangka kerja yang bisa saya gunakan yang akan bekerja secara realtime?

audio speech real-time

— Dony George
sumber

Saya percaya bahwa speex di http://www.speex.org/ kode sumber terbuka memiliki VAD di dalamnya. Cobalah untuk melihat apakah Anda dapat melihatnya dan mendapatkan beberapa ide implementasi, dengan mematuhi lisensi mereka.

— VladP
sumber