Regularisasi digunakan di hampir semua algoritma pembelajaran mesin tempat kami mencoba belajar dari sampel data pelatihan yang terbatas.
Saya akan berusaha menjawab pertanyaan spesifik Anda secara tidak langsung dengan menjelaskan asal usul konsep regularisasi. Teori lengkapnya jauh lebih terperinci dan penjelasan ini tidak boleh ditafsirkan sebagai lengkap, tetapi dimaksudkan untuk hanya mengarahkan Anda ke arah yang benar untuk eksplorasi lebih lanjut. Karena tujuan utama Anda adalah untuk mendapatkan pemahaman intuitif tentang regularisasi, saya telah merangkum dan menyederhanakan penjelasan berikut dari Bab 7 "Jaringan Saraf dan Mesin Pembelajaran", edisi ke-3 oleh Simon Haykin (dan menghilangkan beberapa detail saat melakukannya).
Mari kita kembali masalah belajar yang diawasi dengan variabel independen dan variabel dependen y i ketika mencoba menemukan fungsi f yang akan dapat "memetakan" input X ke output Y.xiyif
Untuk mengambil ini lebih jauh, mari kita memahami terminologi Hadamard tentang masalah "berposisi baik" - masalah diposisikan dengan baik jika memenuhi tiga kondisi berikut:
- Untuk setiap input , dan output y i ada.xiyi
- x1x2f(x1)=f(x2)x1= x2
- f
Untuk pembelajaran yang diawasi, kondisi ini dapat dilanggar karena:
- Output yang berbeda mungkin tidak ada untuk input yang diberikan.
- Mungkin tidak ada informasi yang cukup dalam sampel pelatihan untuk membangun pemetaan input-output yang unik (karena menjalankan algoritma pembelajaran pada sampel pelatihan yang berbeda menghasilkan fungsi pemetaan yang berbeda).
- Kebisingan dalam data menambah ketidakpastian pada proses rekonstruksi yang dapat mempengaruhi stabilitasnya.
Untuk memecahkan masalah "keliru" tersebut, Tikhonov mengusulkan metode regularisasi untuk menstabilkan solusi dengan memasukkan fungsional non-negatif yang menanamkan informasi sebelumnya tentang solusi.
Bentuk informasi sebelumnya yang paling umum melibatkan asumsi bahwa fungsi pemetaan input-output lancar - yaitu input serupa menghasilkan output yang sama.
λfλ∞∞
λ
Beberapa contoh fungsi biaya yang diatur tersebut adalah:
Regresi linier:
J(θ)=1m∑mi=1[hθ(xi)−yi]2+λ2m∑nj=1θ2j
Regresi logistik:
J(θ)=1m∑mi=1[−yilog(hθ(xi))−(1−yi)log(1−hθ(xi))]+λ2m∑nj=1θ2j
θxhθ(x)y
L2
Efek bersih dari penerapan regularisasi adalah untuk mengurangi kompleksitas model yang mengurangi pemasangan berlebihan. Pendekatan lain untuk regularisasi (tidak tercantum dalam contoh di atas) termasuk modifikasi model struktural seperti regresi / klasifikasi Pohon, pohon yang diperkuat, dll. Dengan menjatuhkan simpul untuk membuat pohon yang lebih sederhana. Baru-baru ini ini telah diterapkan dalam apa yang disebut "pembelajaran mendalam" dengan putus koneksi antara neuron dalam jaringan saraf.
Jawaban khusus untuk Q3 adalah bahwa beberapa metode ensembling seperti Random Forest (atau skema pemungutan suara serupa) mencapai regularisasi karena metode yang melekat, yaitu memilih dan memilih respons dari kumpulan Pohon yang tidak diatur. Meskipun masing-masing pohon memiliki pakaian yang berlebih, proses "meratakan" hasilnya tidak membuat ensemble overfitting ke set pelatihan.
EDIT:
Konsep keteraturan milik teori himpunan aksiomatik, Anda bisa merujuk ke artikel ini untuk petunjuk - en.wikipedia.org/wiki/Axiom_of_ regularity dan jelajahi topik ini lebih lanjut jika Anda tertarik pada detailnya.
Tentang regularisasi untuk jaring saraf: Ketika mengatur bobot saat menjalankan algoritma propagasi balik, istilah regularisasi ditambahkan ke fungsi biaya dengan cara yang sama seperti contoh untuk regresi linier dan logistik. Jadi penambahan istilah regularisasi menghentikan propagasi balik dari mencapai minimum global.
Artikel yang menggambarkan normalisasi bets untuk jaringan saraf adalah - Batch Normalisasi: Mempercepat Pelatihan Jaringan Dalam dengan Mengurangi Internal Covariate Shift, Ioffe, Szegedy, 2015. Telah diketahui bahwa backpropagation untuk melatih jaringan saraf bekerja lebih baik ketika variabel input dinormalisasi. Dalam makalah ini, penulis telah menerapkan normalisasi untuk setiap mini-batch yang digunakan dalam Stochastic Gradient Descent untuk menghindari masalah "gradien hilang" ketika melatih banyak lapisan jaringan saraf. Algoritma yang dijelaskan dalam makalah mereka memperlakukan rerata dan varians yang dihitung dalam setiap batch untuk setiap lapisan aktivasi sebagai set parameter lain yang dioptimalkan dalam SGD batch mini (selain bobot NN). Aktivasi kemudian dinormalisasi menggunakan seluruh rangkaian pelatihan. Anda dapat merujuk ke makalah mereka untuk rincian lengkap dari algoritma ini. Dengan menggunakan metode ini, mereka dapat menghindari penggunaan dropout untuk regularisasi, dan karenanya mengklaim bahwa ini adalah jenis regularisasi lainnya.