Cara sederhana untuk menjelaskannya adalah bahwa regularisasi membantu untuk tidak cocok dengan kebisingan, itu tidak melakukan banyak hal dalam menentukan bentuk sinyal. Jika Anda menganggap pembelajaran mendalam sebagai aproksimasi fungsi agung raksasa, maka Anda menyadari bahwa ini membutuhkan banyak data untuk menentukan bentuk sinyal kompleks.
Jika tidak ada noise maka peningkatan kompleksitas NN akan menghasilkan perkiraan yang lebih baik. Tidak akan ada penalti untuk ukuran NN, lebih besar akan lebih baik dalam setiap kasus. Pertimbangkan perkiraan Taylor, lebih banyak istilah selalu lebih baik untuk fungsi non-polinomial (mengabaikan masalah presisi numerik).
Ini rusak di hadapan kebisingan, karena Anda mulai menyesuaikan diri dengan kebisingan. Jadi, inilah regularisasi untuk membantu: mungkin mengurangi kesesuaian dengan kebisingan, sehingga memungkinkan kami untuk membangun NN yang lebih besar agar sesuai dengan masalah nonlinier.
Diskusi berikut ini tidak penting untuk jawaban saya, tetapi saya menambahkan sebagian untuk menjawab beberapa komentar dan memotivasi bagian utama dari jawaban di atas. Pada dasarnya, sisa jawaban saya adalah seperti api Prancis yang datang dengan hidangan burger, Anda dapat melewatinya.
(Ir) Kasus yang relevan: Regresi polinomial
Mari kita lihat contoh mainan dari regresi polinomial. Ini juga merupakan pendekatan yang cukup baik untuk banyak fungsi. Kita akan melihat fungsi di wilayah x ∈ ( - 3 , 3 ) . Seperti yang dapat Anda lihat dari seri Taylor-nya di bawah ini, ekspansi urutan ke-7 sudah sangat cocok, sehingga kita dapat berharap bahwa polinomial dari urutan 7+ harus sangat cocok juga:dosa( x )x ∈ ( - 3 , 3 )
Selanjutnya, kita akan menyesuaikan polinomial dengan tatanan yang semakin tinggi ke kumpulan data kecil yang sangat bising dengan 7 pengamatan:
Kita dapat mengamati apa yang telah kita ketahui tentang polinomial oleh banyak orang yang tahu: mereka tidak stabil, dan mulai terombang-ambing secara liar dengan peningkatan urutan polinomial.
Namun, masalahnya bukan polinomial itu sendiri. Masalahnya adalah kebisingan. Ketika kita memasukkan polinomial ke data berisik, bagian dari kesesuaiannya adalah noise, bukan ke sinyal. Berikut adalah polinomial yang sama persis yang cocok untuk kumpulan data yang sama tetapi dengan noise yang sepenuhnya dihapus. Cocok sangat bagus!
dosa( x )
Perhatikan juga bahwa polinomial orde tinggi tidak sesuai dengan urutan 6, karena tidak ada cukup pengamatan untuk mendefinisikannya. Jadi, mari kita lihat apa yang terjadi dengan 100 pengamatan. Pada bagan di bawah ini Anda melihat bagaimana kumpulan data yang lebih besar memungkinkan kami untuk menyesuaikan polinomial dengan tingkat yang lebih tinggi, sehingga mencapai kesesuaian yang lebih baik!
Hebat, tapi masalahnya kita biasanya berurusan dengan data yang berisik. Lihatlah apa yang terjadi jika Anda cocok dengan 100 pengamatan data yang sangat bising, lihat grafik di bawah ini. Kami kembali ke titik awal: polinomial orde tinggi menghasilkan pas berosilasi mengerikan. Jadi, meningkatkan set data tidak banyak membantu dalam meningkatkan kompleksitas model untuk lebih menjelaskan data. Ini, sekali lagi, karena model kompleks lebih cocok tidak hanya dengan bentuk sinyal, tetapi juga untuk bentuk kebisingan.
Akhirnya, mari kita coba beberapa regularisasi lumpuh pada masalah ini. Bagan di bawah ini menunjukkan regularisasi (dengan hukuman yang berbeda) yang diterapkan untuk memesan 9 regresi polinomial. Bandingkan ini dengan order (power) 9 fit polinomial di atas: pada tingkat regularisasi yang tepat dimungkinkan untuk menyesuaikan polinomial orde tinggi dengan data yang bising.
Kalau-kalau itu tidak jelas: Saya tidak menyarankan untuk menggunakan regresi polinomial dengan cara ini. Polinomial baik untuk kesesuaian lokal, sehingga polinomial sepotong-bijaksana bisa menjadi pilihan yang baik. Menyesuaikan seluruh domain dengan mereka sering merupakan ide yang buruk, karena mereka peka terhadap kebisingan, memang, sebagaimana harus dibuktikan dari plot di atas. Apakah suara itu numerik atau dari sumber lain tidak begitu penting dalam konteks ini. kebisingan adalah kebisingan, dan polinomial akan bereaksi dengan bersemangat.