Saya mencoba mengekstraksi fitur dari file suara dan mengklasifikasikan suara sebagai milik kategori tertentu (misalnya: kulit anjing, mesin kendaraan dll). Saya ingin kejelasan tentang hal-hal berikut:
1) Apakah ini bisa dilakukan? Ada program yang dapat mengenali ucapan, dan membedakan antara berbagai jenis kulit anjing. Tetapi apakah mungkin untuk memiliki program yang dapat menerima sampel suara dan hanya mengatakan jenis suara apa itu? (Asumsikan ada database yang berisi banyak sampel suara untuk merujuk). Sampel suara input dapat sedikit bising (input mikrofon).
2) Saya berasumsi bahwa langkah pertama adalah ekstraksi fitur audio. Artikel ini menyarankan untuk mengekstraksi MFCC dan mengumpankannya ke algoritma pembelajaran mesin. Apakah MFCC cukup? Apakah ada fitur lain yang umumnya digunakan untuk klasifikasi suara?
Terima kasih atas waktu Anda.