Saya mencari kemungkinan untuk mengklasifikasikan suara (misalnya suara binatang) menggunakan spektrogram. Idenya adalah untuk menggunakan jaringan saraf convolutional yang mendalam untuk mengenali segmen dalam spektrogram dan menghasilkan satu (atau banyak) label kelas. Ini bukan ide baru (lihat misalnya klasifikasi suara ikan paus atau pengenalan gaya musik ).
Masalah yang saya hadapi adalah bahwa saya memiliki file suara dengan panjang yang berbeda dan karenanya spektogram dengan ukuran yang berbeda. Sejauh ini, setiap pendekatan yang saya lihat menggunakan sampel suara ukuran tetap tetapi saya tidak bisa melakukan itu karena file suara saya mungkin 10 detik atau 2 menit.
Dengan, misalnya, suara burung di awal dan suara katak di akhir (output harus "Burung, Katak"). Solusi saya saat ini adalah menambahkan komponen temporal ke jaringan saraf (membuat lebih banyak jaringan saraf berulang) tetapi saya ingin membuatnya tetap sederhana untuk saat ini. Ada ide, tautan, tutorial, ...?