Saya mencari untuk mengembangkan aplikasi Android. Sebagai bagian dari fungsionalitas, aplikasi akan perlu untuk mengambil sampel audio secara acak 3-5 detik dan mengklasifikasikannya sebagai ucapan manusia atau tidak. Saya mengerti bahwa konsep ini disebut Deteksi Aktivitas Suara?
Apa yang akan menjadi cara terbaik untuk menerapkan ini pada ponsel. Saya mengembangkan sistem dasar menggunakan fitur dan ambang batas berbasis energi. Saya berharap menemukan sesuatu yang kurang rentan terhadap kebisingan, mungkin menggunakan fitur seperti MFCC atau forman? Saya memang membaca sejumlah makalah, tetapi kebanyakan dari mereka akan meminta saya untuk mengumpulkan data dan melatih model. Apakah ada pustaka atau kerangka kerja yang bisa saya gunakan yang akan bekerja secara realtime?