Pertanyaan yang diberi tag «regularization»

Dimasukkannya kendala tambahan (biasanya penalti untuk kompleksitas) dalam proses pemasangan model. Digunakan untuk mencegah overfitting / meningkatkan akurasi prediksi.



3
Mengapa Lasso menyediakan Seleksi Variabel?
Saya telah membaca Elemen Pembelajaran Statistik , dan saya ingin tahu mengapa Lasso menyediakan pemilihan variabel dan regresi ridge tidak. Kedua metode meminimalkan jumlah residu kuadrat dan memiliki batasan pada nilai yang mungkin dari parameter ββ\beta . Untuk Lasso, batasannya adalah ||β||1≤t||β||1≤t||\beta||_1 \le t , sedangkan untuk punggungan adalah ||β||2≤t||β||2≤t||\beta||_2 …

5
Apa itu regularisasi dalam bahasa Inggris biasa?
Tidak seperti artikel lain, saya menemukan entri wikipedia untuk subjek ini tidak dapat dibaca oleh orang yang bukan ahli matematika (seperti saya). Saya mengerti ide dasar, bahwa Anda menyukai model dengan aturan yang lebih sedikit. Apa yang tidak saya dapatkan adalah bagaimana Anda mendapatkan dari seperangkat aturan ke 'skor regularisasi' …

6
Regulator L2 setara dengan Gaussian Prior
Saya terus membaca ini dan secara intuitif saya bisa melihat ini, tetapi bagaimana orang beralih dari regularisasi L2 ke mengatakan bahwa ini adalah Gaussian Prior secara analitik? Hal yang sama berlaku untuk mengatakan L1 setara dengan Laplacean sebelumnya. Referensi lebih lanjut akan bagus.

2
Mengapa penyusutan berfungsi?
Untuk menyelesaikan masalah pemilihan model, sejumlah metode (LASSO, ridge regression, dll.) Akan mengecilkan koefisien variabel prediktor menjadi nol. Saya mencari penjelasan intuitif mengapa ini meningkatkan kemampuan prediksi. Jika efek sebenarnya dari variabel itu sebenarnya sangat besar, mengapa tidak menyusutkan parameter menghasilkan prediksi yang lebih buruk?

7
Mengapa istilah regularisasi * ditambahkan * ke fungsi biaya (bukan dikalikan dll.)?
Setiap kali regularisasi digunakan, sering ditambahkan ke fungsi biaya seperti dalam fungsi biaya berikut. Ini masuk akal bagi saya karena meminimalkan fungsi biaya berarti meminimalkan kesalahan (istilah kiri) dan meminimalkan besaran koefisien (istilah yang tepat) pada saat yang sama (atau setidaknya menyeimbangkan dua minimisasi).J(θ)=12(y−θXT)(y−θXT)T+α∥θ∥22J(θ)=12(y−θXT)(y−θXT)T+α‖θ‖22 J(\theta)=\frac 1 2(y-\theta X^T)(y-\theta X^T)^T+\alpha\|\theta\|_2^2 Pertanyaan …


6
Mengapa multikolinieritas tidak diperiksa dalam statistik modern / pembelajaran mesin
Dalam statistik tradisional, saat membangun model, kami memeriksa multikolinieritas menggunakan metode seperti perkiraan variance inflation factor (VIF), tetapi dalam pembelajaran mesin, kami menggunakan regularisasi untuk pemilihan fitur dan sepertinya tidak memeriksa apakah fitur berkorelasi sama sekali. Mengapa kita melakukan itu?

3
Metode pengaturan untuk regresi logistik
Regularisasi menggunakan metode seperti Ridge, Lasso, ElasticNet cukup umum untuk regresi linier. Saya ingin tahu yang berikut: Apakah metode ini berlaku untuk regresi logistik? Jika demikian, apakah ada perbedaan dalam cara mereka perlu digunakan untuk regresi logistik? Jika metode ini tidak dapat diterapkan, bagaimana seseorang mengatur regresi logistik?

1
Neural Networks: momentum perubahan berat badan dan penurunan berat badan
Momentum digunakan untuk mengurangi fluktuasi perubahan berat selama iterasi berurutan:αα\alpha Δ ωsaya( t + 1 ) =- η∂E∂wsaya+ α Δωsaya( t ) ,Δωsaya(t+1)=-η∂E∂wsaya+αΔωsaya(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), mana adalah fungsi kesalahan, - vektor bobot, - tingkat pembelajaran.E( w )E(w)E({\bf w})ww{\bf w}ηη\eta Pembusukan berat menghukum perubahan …

5
Bagaimana cara mendapatkan solusi regresi ridge?
Saya mengalami beberapa masalah dengan derivasi solusi untuk regresi ridge. Saya tahu solusi regresi tanpa ketentuan regularisasi: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. Tetapi setelah menambahkan istilah L2 ke fungsi biaya, mengapa solusinya menjadiλ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.

3
Justifikasi empiris untuk aturan satu kesalahan standar saat menggunakan cross-validation
Apakah ada studi empiris yang membenarkan penggunaan satu aturan kesalahan standar yang mendukung kekikiran? Jelas itu tergantung pada proses data-data, tetapi apa pun yang menganalisis kumpulan data besar akan menjadi bacaan yang sangat menarik. "Satu aturan kesalahan standar" diterapkan ketika memilih model melalui cross-validation (atau lebih umum melalui prosedur berbasis …


2
Jika hanya prediksi yang menarik, mengapa menggunakan laso over ridge?
Pada halaman 223 dalam Pengantar Pembelajaran Statistik , penulis merangkum perbedaan antara regresi ridge dan laso. Mereka memberikan contoh (Gambar 6.9) ketika "laso cenderung mengungguli regresi ridge dalam hal bias, varians, dan MSE". Saya mengerti mengapa laso diinginkan: ini menghasilkan solusi yang jarang karena menyusut banyak koefisien menjadi 0, menghasilkan …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.