Pertanyaan yang diberi tag «gradient-descent»

Gradient descent adalah algoritma pengoptimalan iteratif tingkat pertama. Untuk menemukan minimum lokal dari suatu fungsi menggunakan gradient descent, seseorang mengambil langkah-langkah sebanding dengan negatif dari gradien (atau perkiraan gradien) dari fungsi pada titik saat ini. Untuk keturunan gradien stokastik ada juga tag [sgd].

8
Mengapa metode Newton tidak banyak digunakan dalam pembelajaran mesin?
Ini adalah sesuatu yang telah mengganggu saya untuk sementara waktu, dan saya tidak dapat menemukan jawaban yang memuaskan secara online, jadi begini: Setelah meninjau satu set ceramah tentang optimasi cembung, metode Newton tampaknya menjadi algoritma yang jauh lebih unggul daripada gradient descent untuk menemukan solusi optimal secara global, karena metode …

3
Penurunan gradien batch dibandingkan penurunan gradien stokastik
Misalkan kita memiliki beberapa set pelatihan untuk . Juga misalkan kita menjalankan beberapa jenis algoritma pembelajaran terawasi pada set pelatihan. Hipotesa direpresentasikan sebagai . Kita perlu menemukan parameter yang meminimalkan "jarak" antara dan . Biarkan(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + \cdots +\theta_{n}x_{(i)n}θθ\mathbf{\theta}y(i)y(i)y_{(i)}hθ(x(i))hθ(x(i))h_{\theta}(x_{(i)})J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(\theta) = \frac{1}{2} \sum_{i=1}^{m} (y_{(i)}-h_{\theta}(x_{(i)})^{2} Maka …


2
Memecahkan parameter regresi dalam bentuk tertutup vs gradient descent
Dalam kursus pembelajaran mesin Andrew Ng , ia memperkenalkan regresi linier dan regresi logistik, dan menunjukkan bagaimana menyesuaikan parameter model menggunakan gradient descent dan metode Newton. Saya tahu gradient descent dapat berguna dalam beberapa aplikasi pembelajaran mesin (misalnya, backpropogation), tetapi dalam kasus yang lebih umum apakah ada alasan mengapa Anda …

3
Mengapa peneliti jaringan saraf peduli dengan zaman?
Sebuah zaman dalam penurunan gradien stokastik didefinisikan sebagai satu kali melewati data. Untuk setiap minibatch SGD, sampel diambil, gradien dihitung dan parameter diperbarui. Dalam pengaturan zaman, sampel diambil tanpa penggantian.kkk Tapi ini sepertinya tidak perlu. Mengapa tidak menggambar setiap minibid SGD sebagai penarikan acak dari seluruh kumpulan data di setiap …


6
Adam optimizer dengan peluruhan eksponensial
Dalam sebagian besar kode Tensorflow yang saya lihat Adam Optimizer digunakan dengan Laju Pembelajaran konstan 1e-4(yaitu 0,0001). Kode biasanya terlihat sebagai berikut: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added by AdamOptimizer(). init_op …


4
Apa perbedaan antara penurunan gradien berbasis momentum dan percepatan penurunan gradien Nesterov?
Jadi penurunan gradien berbasis momentum bekerja sebagai berikut: v=self.momentum∗m−lr∗gv=self.momentum∗m−lr∗gv=self.momentum*m-lr*g di mana adalah pembaruan berat sebelumnya, dan adalah gradien saat ini sehubungan dengan parameter , adalah tingkat pembelajaran, dan adalah konstanta.g p l r s e l f . m o m e n t u mmmmgggppplrlrlrself.momentumself.momentumself.momentum pnew=p+v=p+self.momentum∗m−lr∗gpnew=p+v=p+self.momentum∗m−lr∗gp_{new} = p + …


1
Bagaimana cara kerja metode Adam penurunan gradien stokastik?
Saya kenal dengan algoritma gradient descent dasar untuk pelatihan jaringan saraf. Saya telah membaca makalah yang mengusulkan Adam: ADAM: METODE UNTUK OPTIMISASI STOKASTIK . Meskipun saya pasti memiliki beberapa wawasan (setidaknya), makalah ini tampaknya terlalu tinggi bagi saya secara keseluruhan. Sebagai contoh, fungsi biaya sering merupakan jumlah dari banyak fungsi …

1
Neural Networks: momentum perubahan berat badan dan penurunan berat badan
Momentum digunakan untuk mengurangi fluktuasi perubahan berat selama iterasi berurutan:αα\alpha Δ ωsaya( t + 1 ) =- η∂E∂wsaya+ α Δωsaya( t ) ,Δωsaya(t+1)=-η∂E∂wsaya+αΔωsaya(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), mana adalah fungsi kesalahan, - vektor bobot, - tingkat pembelajaran.E( w )E(w)E({\bf w})ww{\bf w}ηη\eta Pembusukan berat menghukum perubahan …

4
Bagaimana fungsi aktivasi bujursangkar menyelesaikan masalah gradien hilang dalam jaringan saraf?
Saya menemukan unit linear diperbaiki (ReLU) dipuji di beberapa tempat sebagai solusi untuk masalah gradien menghilang untuk jaringan saraf. Artinya, seseorang menggunakan maks (0, x) sebagai fungsi aktivasi. Ketika aktivasi positif, jelas bahwa ini lebih baik daripada, katakanlah, fungsi aktivasi sigmoid, karena derivasiasinya selalu 1 bukannya nilai kecil sewenang-wenang untuk …

2
Siapa yang menemukan keturunan gradien stokastik?
Saya mencoba memahami sejarah keturunan Gradient dan Stochastic gradient descent . Keturunan gradien ditemukan di Cauchy pada tahun 1847. Méthode générale pour la résolution des systèmes d'équations simultanées . hlm. 536–538 Untuk informasi lebih lanjut lihat di sini . Sejak itu metode gradient descent terus berkembang dan saya tidak terbiasa …

2
Apakah kita memerlukan gradient descent untuk menemukan koefisien model regresi linier?
Saya mencoba mempelajari pembelajaran mesin menggunakan materi Coursera . Dalam kuliah ini, Andrew Ng menggunakan algoritma gradient descent untuk menemukan koefisien model regresi linier yang akan meminimalkan fungsi kesalahan (fungsi biaya). Untuk regresi linier, apakah kita perlu gradient descent? Tampaknya saya dapat secara analitis membedakan fungsi kesalahan dan menetapkannya ke …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.