Memilih metode regularisasi dalam jaringan saraf

9

Saat melatih jaringan saraf, setidaknya ada 4 cara untuk mengatur jaringan:

Regulasi L1

Regulasi L2

Keluar

Normalisasi Batch

ditambah tentu saja hal-hal lain seperti pembagian berat badan dan mengurangi jumlah koneksi, yang mungkin bukan pengaturan dalam arti yang paling ketat.

Tetapi bagaimana orang akan memilih metode regularisasi mana yang akan digunakan? Apakah ada cara yang lebih berprinsip daripada "coba semuanya dan lihat apa yang berhasil"?

neural-network regularization

— Thomas Johnson
sumber

3

Apakah jaringan saraf memiliki prinsip? Prinsip metode kotak hitam adalah untuk mencoba segalanya dan melihat apa yang berhasil

— Darrin Thomas

Dan ini cukup menyedihkan, bukan?

— Alex

6

Tidak ada prinsip yang kuat dan terdokumentasi dengan baik untuk membantu Anda memutuskan antara jenis regularisasi dalam jaringan saraf. Anda bahkan dapat menggabungkan teknik regularisasi, Anda tidak harus memilih satu saja.

Pendekatan yang bisa diterapkan dapat didasarkan pada pengalaman, dan mengikuti literatur dan hasil orang lain untuk melihat apa yang memberikan hasil yang baik dalam domain masalah yang berbeda. Mengingat hal ini, putus sekolah telah terbukti sangat sukses untuk berbagai masalah, dan Anda mungkin dapat menganggapnya sebagai pilihan pertama yang baik hampir terlepas dari apa yang Anda coba.

Juga kadang-kadang hanya dengan memilih opsi yang Anda kenal dapat membantu - bekerja dengan teknik yang Anda pahami dan berpengalaman mungkin dapat memberi Anda hasil yang lebih baik daripada mencoba seluruh tas pilihan yang berbeda di mana Anda tidak yakin urutan besarnya untuk mencoba suatu parameter . Masalah utama adalah bahwa teknik-teknik tersebut dapat saling mempengaruhi dengan parameter jaringan lainnya - misalnya, Anda mungkin ingin menambah ukuran layer dengan dropout tergantung pada persentase dropout.

Akhirnya, mungkin tidak masalah teknik regularisasi mana yang Anda gunakan, hanya saja Anda memahami masalah dan model Anda dengan cukup baik untuk dikenali ketika itu terlalu pas dan bisa dilakukan dengan lebih banyak regularisasi. Atau sebaliknya, cari ketika itu kurang cocok dan bahwa Anda harus mengurangi regularisasi.

— Neil Slater
sumber

3

Metode regularisasi

Untuk 4 teknik berikut, Regularisasi L1 dan Regularisasi L2 tidak perlu dikatakan bahwa mereka harus menjadi metode regularisasi. Mereka mengecilkan beratnya. L1 akan berkonsentrasi untuk mengecilkan jumlah yang lebih kecil jika bobot memiliki kepentingan yang lebih tinggi.

Dropout mencegah overfitting dengan sementara menjatuhkan neuron. Akhirnya, ia menghitung semua bobot sebagai rata-rata sehingga beratnya tidak akan terlalu besar untuk neuron tertentu dan karenanya merupakan metode regularisasi.

Normalisasi Batch tidak boleh menjadi metode regularisasi karena tujuan utamanya adalah untuk mempercepat pelatihan dengan memilih batch dan memaksa bobot untuk didistribusikan mendekati 0, tidak terlalu besar, tidak terlalu kecil.

Memilihnya

Bagi saya, mini-batch adalah suatu keharusan karena dapat mempercepat proses dan meningkatkan kinerja jaringan setiap saat.

L1 dan L2 keduanya mirip dan saya lebih suka L1 dalam jaringan kecil.

Idealnya, dropout harus diterapkan jika ada masalah variasi besar atau overfitting.

Terakhir tetapi tidak sedikit, saya setuju dengan Neil Slater bahwa itu tergantung pada situasinya dan tidak akan pernah ada solusi optimal.

Saya sarankan Anda untuk membaca ini untuk informasi lebih lanjut. Ini adalah bahan yang sangat bagus. http://neuralnetworksanddeeplearning.com/chap3.html

— BenjiBB
sumber

-1

Lihatlah pilihan algoritmik tersebut sebagai hiperparameter tambahan dan optimalkan dengan cara yang sama seperti yang Anda lakukan untuk hiperparameter lainnya. Biasanya ini akan membutuhkan lebih banyak data.

— Alex
sumber

2

Hai Alex, Selamat Datang di DS.SE. Ini adalah situs T&J yang memiliki jawaban terkaya melayang ke atas melalui pemungutan suara. Seseorang menolak Anda, mungkin karena jawaban Anda cukup pendek dan umumnya menjelaskan solusinya (mis.) Tidak menjelaskan perincian hyperparameters, sebuah istilah yang tidak digunakan oleh poster aslinya.

— Marcus D