Saya memiliki aplikasi bergaya karaoke kecil di mana pengguna menyanyikan 4 baris lagu, dengan jarak satu detik di antara setiap baris. Tidak ada backing musik, jadi itu hanya suara, mudah-mudahan membuat masalah lebih mudah untuk dipecahkan.
Saya mencari cara yang paling kuat untuk mendeteksi dengan tepat di mana dalam rekaman saya pengguna mulai dan berakhir menyanyikan baris 1, mulai dan berakhir menyanyikan baris 2, dll.
Saya telah menyusun sebuah algoritma sederhana yang bekerja ketika ada sedikit kebisingan latar belakang dalam rekaman (seperti kapan hal itu terjadi?), Tetapi jatuh berkeping-keping di hadapan suara terkecil.
Adakah yang bisa mengarahkan saya ke sesuatu yang lebih kuat?