Saya tahu utas ini cukup lama dan yang lain telah melakukan pekerjaan yang bagus untuk menjelaskan konsep-konsep seperti minima lokal, overfitting dll. Namun, ketika OP sedang mencari solusi alternatif, saya akan mencoba untuk berkontribusi satu dan berharap ini akan menginspirasi ide-ide yang lebih menarik.
Idenya adalah untuk mengganti setiap bobot w ke w + t, di mana t adalah angka acak berikut distribusi Gaussian. Output akhir dari jaringan adalah output rata-rata dari semua nilai t yang mungkin. Ini dapat dilakukan secara analitis. Anda kemudian dapat mengoptimalkan masalah dengan gradient descent atau LMA atau metode optimasi lainnya. Setelah optimisasi selesai, Anda memiliki dua opsi. Salah satu opsi adalah untuk mengurangi sigma dalam distribusi Gaussian dan melakukan optimasi lagi dan lagi sampai sigma mencapai 0, maka Anda akan memiliki minimum lokal yang lebih baik (tetapi berpotensi dapat menyebabkan overfitting). Pilihan lain adalah tetap menggunakan yang nomor acak dalam bobotnya, biasanya memiliki properti generalisasi yang lebih baik.
Pendekatan pertama adalah trik optimasi (saya menyebutnya sebagai tunneling convolutional, karena menggunakan konvolusi atas parameter untuk mengubah fungsi target), itu menghaluskan permukaan lanskap fungsi biaya dan menyingkirkan beberapa minimum lokal, dengan demikian membuatnya lebih mudah untuk menemukan minimum global (atau minimum lokal yang lebih baik).
Pendekatan kedua terkait dengan injeksi suara (pada beban). Perhatikan bahwa ini dilakukan secara analitik, artinya hasil akhir adalah satu jaringan tunggal, bukan beberapa jaringan.
Berikut ini adalah contoh output untuk masalah dua-spiral. Arsitektur jaringan adalah sama untuk ketiganya: hanya ada satu lapisan tersembunyi dari 30 node, dan lapisan output adalah linier. Algoritma optimasi yang digunakan adalah LMA. Gambar kiri untuk pengaturan vanila; tengah menggunakan pendekatan pertama (yaitu berulang kali mengurangi sigma ke 0); yang ketiga menggunakan sigma = 2.
Anda dapat melihat bahwa solusi vanilla adalah yang terburuk, tunneling convolutional melakukan pekerjaan yang lebih baik, dan injeksi noise (dengan tunneling convolutional) adalah yang terbaik (dalam hal properti generalisasi).
Baik tunneling convolutional dan cara analitis injeksi kebisingan adalah ide asli saya. Mungkin mereka adalah alternatif yang mungkin diminati seseorang. Rinciannya dapat ditemukan di makalah saya Menggabungkan Nomor Infinity Jaringan Neural Menjadi Satu . Peringatan: Saya bukan penulis akademis profesional dan makalah ini tidak diulas bersama. Jika Anda memiliki pertanyaan tentang pendekatan yang saya sebutkan, silakan tinggalkan komentar.