Saat ini saya sedang berupaya menciptakan kembali hasil dari makalah ini . Dalam makalah mereka menggambarkan metode untuk menggunakan CNN untuk ekstraksi fitur, dan memiliki model akustik yaitu Dnn-hmm dan dipra-preline menggunakan RBM.
Bagian III ayat A menyatakan berbagai cara input data dapat direpresentasikan. Saya memutuskan untuk secara vertikal menumpuk plot spektrum dari delta statis, delta dan delta.
Makalah ini kemudian menjelaskan bagaimana seharusnya jaringan. Mereka menyatakan bahwa mereka menggunakan jaringan convolutional, tetapi tidak ada tentang struktur jaringan ?. Lebih jauh lagi apakah jaringan selalu disebut sebagai lapisan convolutional? yang saya yakin saya melihat perbedaan dibandingkan dengan jaringan neural convolutional network biasa (cnn).
Makalah ini menyatakan tentang perbedaan:
(dari bagian III ayat B)
Lapisan konvolusi berbeda dari lapisan tersembunyi standar yang terhubung sepenuhnya dalam dua aspek penting. Pertama, setiap unit konvolusional hanya menerima input dari area input lokal. Ini berarti bahwa setiap unit mewakili beberapa fitur dari wilayah input lokal. Kedua, unit lapis konvolusi sendiri dapat diatur ke dalam sejumlah peta fitur, di mana semua unit dalam peta fitur yang sama berbagi bobot yang sama tetapi menerima input dari lokasi berbeda dari lapisan bawah.
Hal lain yang saya pikirkan adalah apakah makalah ini benar-benar menyatakan berapa banyak parameter output yang diperlukan untuk memberi makan model akustik dnn-hmm. Sepertinya saya tidak dapat mendekodekan jumlah filter, ukuran filter .. secara umum rincian jaringan?