Bagaimana cara memahami jaringan keyakinan mendalam konvolusional untuk klasifikasi audio?

11

Dalam " Jaringan keyakinan mendalam konvolusional untuk pembelajaran terwakili terwakili terwakili " oleh Lee et. al. ( PDF ) DBN konvolusional diusulkan. Juga metode dievaluasi untuk klasifikasi gambar. Ini terdengar logis, karena ada fitur gambar lokal alami, seperti sudut dan tepi kecil dll.

Dalam " Pembelajaran fitur tanpa pengawasan untuk klasifikasi audio menggunakan jaringan keyakinan mendalam convolutional " oleh Lee et. Al. metode ini diterapkan untuk audio dalam berbagai jenis klasifikasi. Identifikasi pembicara, identifikasi gender, klasifikasi telepon dan juga beberapa genre musik / klasifikasi artis.

Bagaimana bagian konvolusional dari jaringan ini ditafsirkan untuk audio, seperti dapat dijelaskan untuk gambar sebagai tepi?

— Peter Smit
sumber

Siapa yang punya kode untuk kertas?

9

Aplikasi audio adalah penyederhanaan satu dimensi dari masalah klasifikasi gambar dua dimensi. Fonem (misalnya) adalah analog audio dari fitur gambar seperti tepi atau lingkaran. Dalam kedua kasus fitur tersebut memiliki lokalitas penting: mereka dicirikan oleh nilai-nilai dalam lingkungan yang relatif kecil dari lokasi gambar atau saat bicara. Konvolusi adalah bentuk rata-rata tertimbang yang terkontrol dan teratur dalam lingkungan lokal. Dari sinilah muncul harapan bahwa bentuk konvolusional DBN dapat berhasil mengidentifikasi dan membedakan fitur-fitur yang bermakna.

— whuber
sumber

1

Dalam kasus RBM Konvolusional yang diterapkan pada data audio, penulis pertama-tama mengambil Short Term Fourier Transform dan kemudian mendefinisikan pita energi pada spektrum. Kemudian mereka telah menerapkan RBM konvolusional pada audio yang ditransformasikan.

— pengguna1915348
sumber