Pertanyaan yang diberi tag «optimization»

Gunakan tag ini untuk penggunaan optimasi dalam statistik.

8
Mengapa metode Newton tidak banyak digunakan dalam pembelajaran mesin?
Ini adalah sesuatu yang telah mengganggu saya untuk sementara waktu, dan saya tidak dapat menemukan jawaban yang memuaskan secara online, jadi begini: Setelah meninjau satu set ceramah tentang optimasi cembung, metode Newton tampaknya menjadi algoritma yang jauh lebih unggul daripada gradient descent untuk menemukan solusi optimal secara global, karena metode …

3
Penurunan gradien batch dibandingkan penurunan gradien stokastik
Misalkan kita memiliki beberapa set pelatihan untuk . Juga misalkan kita menjalankan beberapa jenis algoritma pembelajaran terawasi pada set pelatihan. Hipotesa direpresentasikan sebagai . Kita perlu menemukan parameter yang meminimalkan "jarak" antara dan . Biarkan(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + \cdots +\theta_{n}x_{(i)n}θθ\mathbf{\theta}y(i)y(i)y_{(i)}hθ(x(i))hθ(x(i))h_{\theta}(x_{(i)})J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(\theta) = \frac{1}{2} \sum_{i=1}^{m} (y_{(i)}-h_{\theta}(x_{(i)})^{2} Maka …

6
Apakah mungkin untuk melatih jaringan saraf tanpa backpropagation?
Banyak buku dan tutorial jaringan saraf menghabiskan banyak waktu pada algoritma backpropagation, yang pada dasarnya adalah alat untuk menghitung gradien. Mari kita asumsikan kita sedang membangun model dengan ~ 10K parameter / bobot. Apakah mungkin untuk menjalankan pengoptimalan menggunakan beberapa algoritma pengoptimalan bebas gradien? Saya pikir menghitung gradien numerik akan …

2
fungsi aktivasi tanh vs fungsi aktivasi sigmoid
Fungsi aktivasi tanh adalah: tanh(x)=2⋅σ(2x)−1tanh(x)=2⋅σ(2x)−1tanh \left( x \right) = 2 \cdot \sigma \left( 2 x \right) - 1 Di mana , fungsi sigmoid, didefinisikan sebagai: .σ(x)σ(x)\sigma(x) σ(x)=ex1+exσ(x)=ex1+ex\sigma(x) = \frac{e^x}{1 + e^x} Pertanyaan: Apakah benar-benar penting antara menggunakan kedua fungsi aktivasi (tanh vs sigma)? Fungsi mana yang lebih baik dalam hal …

7
Mengapa mengoptimalkan kemungkinan log maksimum dan bukannya probabilitas
Di sebagian besar tugas pembelajaran mesin di mana Anda dapat merumuskan beberapa probabilitas yang harus dimaksimalkan, kami sebenarnya akan mengoptimalkan probabilitas alih-alih probabilitas untuk beberapa parameter . Misalnya dalam pelatihan kemungkinan maksimum, biasanya log-kemungkinan. Ketika melakukan ini dengan beberapa metode gradien, ini melibatkan faktor:ppplogplog⁡p\log pθθ\theta ∂logp∂θ=1p⋅∂p∂θ∂log⁡p∂θ=1p⋅∂p∂θ \frac{\partial \log p}{\partial \theta} …


5
Apa penjelasan intuitif untuk bagaimana PCA berubah dari masalah geometris (dengan jarak) ke masalah aljabar linier (dengan vektor eigen)?
Saya sudah membaca banyak tentang PCA, termasuk berbagai tutorial dan pertanyaan (seperti yang ini , yang ini , yang ini , dan yang ini ). Masalah geometris yang PCA coba optimalkan jelas bagi saya: PCA mencoba menemukan komponen utama pertama dengan meminimalkan kesalahan rekonstruksi (proyeksi), yang secara bersamaan memaksimalkan varians …

4
Apa perbedaan antara penurunan gradien berbasis momentum dan percepatan penurunan gradien Nesterov?
Jadi penurunan gradien berbasis momentum bekerja sebagai berikut: v=self.momentum∗m−lr∗gv=self.momentum∗m−lr∗gv=self.momentum*m-lr*g di mana adalah pembaruan berat sebelumnya, dan adalah gradien saat ini sehubungan dengan parameter , adalah tingkat pembelajaran, dan adalah konstanta.g p l r s e l f . m o m e n t u mmmmgggppplrlrlrself.momentumself.momentumself.momentum pnew=p+v=p+self.momentum∗m−lr∗gpnew=p+v=p+self.momentum∗m−lr∗gp_{new} = p + …


1
Bagaimana cara kerja metode Adam penurunan gradien stokastik?
Saya kenal dengan algoritma gradient descent dasar untuk pelatihan jaringan saraf. Saya telah membaca makalah yang mengusulkan Adam: ADAM: METODE UNTUK OPTIMISASI STOKASTIK . Meskipun saya pasti memiliki beberapa wawasan (setidaknya), makalah ini tampaknya terlalu tinggi bagi saya secara keseluruhan. Sebagai contoh, fungsi biaya sering merupakan jumlah dari banyak fungsi …

1
Neural Networks: momentum perubahan berat badan dan penurunan berat badan
Momentum digunakan untuk mengurangi fluktuasi perubahan berat selama iterasi berurutan:αα\alpha Δ ωsaya( t + 1 ) =- η∂E∂wsaya+ α Δωsaya( t ) ,Δωsaya(t+1)=-η∂E∂wsaya+αΔωsaya(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), mana adalah fungsi kesalahan, - vektor bobot, - tingkat pembelajaran.E( w )E(w)E({\bf w})ww{\bf w}ηη\eta Pembusukan berat menghukum perubahan …


1
Mengapa glmer tidak mencapai kemungkinan maksimum (seperti yang diverifikasi dengan menerapkan optimasi generik lebih lanjut)?
Secara numerik menurunkan MLE pada GLMM adalah sulit dan, dalam praktiknya, saya tahu, kita tidak boleh menggunakan optimasi brute force (misalnya, menggunakan optimdengan cara sederhana). Tetapi untuk tujuan pendidikan saya sendiri, saya ingin mencobanya untuk memastikan saya memahami model dengan benar (lihat kode di bawah). Saya menemukan bahwa saya selalu …

3
Membandingkan SVM dan regresi logistik
Bisakah seseorang tolong beri saya intuisi kapan harus memilih SVM atau LR? Saya ingin memahami intuisi di balik apa perbedaan antara kriteria optimasi belajar hyperplane keduanya, di mana tujuan masing-masing adalah sebagai berikut: SVM: Cobalah untuk memaksimalkan margin antara vektor dukungan terdekat LR: Maksimalkan probabilitas kelas posterior Mari kita pertimbangkan …

5
Bisakah Anda menyesuaikan diri dengan pelatihan algoritma pembelajaran mesin menggunakan CV / Bootstrap?
Pertanyaan ini mungkin terlalu terbuka untuk mendapatkan jawaban yang pasti, tetapi mudah-mudahan tidak. Algoritma pembelajaran mesin, seperti SVM, GBM, Random Forest dll, umumnya memiliki beberapa parameter gratis yang, di luar beberapa pedoman praktis, perlu disetel ke setiap kumpulan data. Ini umumnya dilakukan dengan semacam teknik re-sampling (bootstrap, CV dll) agar …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.