Pertanyaan yang diberi tag «sgd»

3
Penurunan gradien batch dibandingkan penurunan gradien stokastik
Misalkan kita memiliki beberapa set pelatihan untuk . Juga misalkan kita menjalankan beberapa jenis algoritma pembelajaran terawasi pada set pelatihan. Hipotesa direpresentasikan sebagai . Kita perlu menemukan parameter yang meminimalkan "jarak" antara dan . Biarkan(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + \cdots +\theta_{n}x_{(i)n}θθ\mathbf{\theta}y(i)y(i)y_{(i)}hθ(x(i))hθ(x(i))h_{\theta}(x_{(i)})J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(\theta) = \frac{1}{2} \sum_{i=1}^{m} (y_{(i)}-h_{\theta}(x_{(i)})^{2} Maka …

2
Siapa yang menemukan keturunan gradien stokastik?
Saya mencoba memahami sejarah keturunan Gradient dan Stochastic gradient descent . Keturunan gradien ditemukan di Cauchy pada tahun 1847. Méthode générale pour la résolution des systèmes d'équations simultanées . hlm. 536–538 Untuk informasi lebih lanjut lihat di sini . Sejak itu metode gradient descent terus berkembang dan saya tidak terbiasa …

6
Untuk masalah cembung, apakah gradien dalam Stochastic Gradient Descent (SGD) selalu menunjuk pada nilai ekstrim global?
Diberikan fungsi biaya cembung, menggunakan SGD untuk optimisasi, kami akan memiliki gradien (vektor) pada titik tertentu selama proses optimasi. Pertanyaan saya adalah, mengingat titik pada cembung, apakah gradien hanya menunjuk pada arah di mana fungsi naik / turun tercepat, atau gradien selalu menunjuk pada titik optimal / ekstrim dari fungsi …


1
Bagaimana penurunan gradien stokastik dapat menghemat waktu dibandingkan dengan penurunan gradien standar?
Keturunan Gradien Standar akan menghitung gradien untuk seluruh dataset pelatihan. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Untuk jumlah zaman yang ditentukan sebelumnya, pertama-tama kita menghitung vektor gradien weights_grad dari fungsi kerugian untuk seluruh dataset menggunakan parameter vektor parameter kami. Stochastic …

4
Bagaimana bisa terperangkap di sadel?
Saat ini saya agak bingung dengan bagaimana mini-batch gradient descent dapat terperangkap di titik sadel. Solusinya mungkin terlalu sepele sehingga saya tidak mengerti. Anda mendapatkan sampel baru setiap zaman, dan menghitung kesalahan baru berdasarkan batch baru, sehingga fungsi biaya hanya statis untuk setiap batch, yang berarti bahwa gradien juga harus …

1
RMSProp dan Adam vs SGD
Saya melakukan percobaan pada set validasi EMNIST menggunakan jaringan dengan RMSProp, Adam dan SGD. Saya mencapai akurasi 87% dengan SGD (tingkat belajar 0,1) dan dropout (0,1 dropout prob) serta regularisasi L2 (penalti 1e-05). Saat menguji konfigurasi persis yang sama dengan RMSProp dan Adam serta tingkat pembelajaran awal 0,001, saya mencapai …



3
Keturunan gradien pada fungsi non-cembung
Situasi apa yang kita ketahui di mana gradient descent dapat ditunjukkan untuk menyatu (baik ke titik kritis atau ke minimum lokal / global) untuk fungsi non-cembung? Untuk SGD pada fungsi non-cembung, satu jenis bukti telah ditinjau di sini, http://www.cs.cornell.edu/courses/cs6787/2017fa/Lecture7.pdf
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.