Statistik dan Big Data sgd

3

Penurunan gradien batch dibandingkan penurunan gradien stokastik

Misalkan kita memiliki beberapa set pelatihan untuk . Juga misalkan kita menjalankan beberapa jenis algoritma pembelajaran terawasi pada set pelatihan. Hipotesa direpresentasikan sebagai . Kita perlu menemukan parameter yang meminimalkan "jarak" antara dan . Biarkan(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + \cdots +\theta_{n}x_{(i)n}θθ\mathbf{\theta}y(i)y(i)y_{(i)}hθ(x(i))hθ(x(i))h_{\theta}(x_{(i)})J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(\theta) = \frac{1}{2} \sum_{i=1}^{m} (y_{(i)}-h_{\theta}(x_{(i)})^{2} Maka …

101 optimization gradient-descent sgd

2

Siapa yang menemukan keturunan gradien stokastik?

Saya mencoba memahami sejarah keturunan Gradient dan Stochastic gradient descent . Keturunan gradien ditemukan di Cauchy pada tahun 1847. Méthode générale pour la résolution des systèmes d'équations simultanées . hlm. 536–538 Untuk informasi lebih lanjut lihat di sini . Sejak itu metode gradient descent terus berkembang dan saya tidak terbiasa …

36 references gradient-descent history sgd

6

Untuk masalah cembung, apakah gradien dalam Stochastic Gradient Descent (SGD) selalu menunjuk pada nilai ekstrim global?

Diberikan fungsi biaya cembung, menggunakan SGD untuk optimisasi, kami akan memiliki gradien (vektor) pada titik tertentu selama proses optimasi. Pertanyaan saya adalah, mengingat titik pada cembung, apakah gradien hanya menunjuk pada arah di mana fungsi naik / turun tercepat, atau gradien selalu menunjuk pada titik optimal / ekstrim dari fungsi …

25 neural-networks optimization gradient-descent sgd convex

3

Bagaimana ukuran batch memengaruhi konvergensi SGD dan mengapa?

Saya telah melihat kesimpulan serupa dari banyak diskusi, bahwa ketika ukuran minibatch semakin besar konvergensi SGD sebenarnya semakin sulit / buruk, misalnya tulisan ini dan jawaban ini . Saya juga pernah mendengar ada orang yang menggunakan trik seperti kecepatan belajar kecil atau ukuran batch pada tahap awal untuk mengatasi kesulitan …

18 machine-learning neural-networks optimization gradient-descent sgd

1

Bagaimana penurunan gradien stokastik dapat menghemat waktu dibandingkan dengan penurunan gradien standar?

Keturunan Gradien Standar akan menghitung gradien untuk seluruh dataset pelatihan. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Untuk jumlah zaman yang ditentukan sebelumnya, pertama-tama kita menghitung vektor gradien weights_grad dari fungsi kerugian untuk seluruh dataset menggunakan parameter vektor parameter kami. Stochastic …

15 machine-learning optimization gradient-descent computational-statistics sgd

4

Bagaimana bisa terperangkap di sadel?

Saat ini saya agak bingung dengan bagaimana mini-batch gradient descent dapat terperangkap di titik sadel. Solusinya mungkin terlalu sepele sehingga saya tidak mengerti. Anda mendapatkan sampel baru setiap zaman, dan menghitung kesalahan baru berdasarkan batch baru, sehingga fungsi biaya hanya statis untuk setiap batch, yang berarti bahwa gradien juga harus …

14 gradient-descent sgd

1

RMSProp dan Adam vs SGD

Saya melakukan percobaan pada set validasi EMNIST menggunakan jaringan dengan RMSProp, Adam dan SGD. Saya mencapai akurasi 87% dengan SGD (tingkat belajar 0,1) dan dropout (0,1 dropout prob) serta regularisasi L2 (penalti 1e-05). Saat menguji konfigurasi persis yang sama dengan RMSProp dan Adam serta tingkat pembelajaran awal 0,001, saya mencapai …

12 machine-learning optimization sgd adam

1

Apa perbedaan antara VAE dan Backpropagation Stochastic untuk Deep Generative Models?

Apa perbedaan antara Variational Bayes yang dikodekan secara otomatis dan Backpropagation Stochastic untuk Deep Generative Models ? Apakah kesimpulan dalam kedua metode menghasilkan hasil yang sama? Saya tidak mengetahui adanya perbandingan eksplisit antara kedua metode, meskipun demikian kedua kelompok penulis saling mengutip.

10 deep-learning inference latent-variable variational-bayes sgd

2

Cara mengatur ukuran mini-batch dalam SGD dalam keras

Saya baru mengenal Keras dan butuh bantuan Anda. Saya melatih jaringan syaraf dalam Keras dan fungsi kerugian saya adalah Perbedaan Kuadrat antara output dan nilai target. Saya ingin mengoptimalkan ini dengan menggunakan Gradient Descent. Setelah melalui beberapa tautan di internet, saya mengetahui bahwa ada 3 jenis gradient descents yang digunakan …

10 neural-networks python gradient-descent keras sgd

3

Keturunan gradien pada fungsi non-cembung

Situasi apa yang kita ketahui di mana gradient descent dapat ditunjukkan untuk menyatu (baik ke titik kritis atau ke minimum lokal / global) untuk fungsi non-cembung? Untuk SGD pada fungsi non-cembung, satu jenis bukti telah ditinjau di sini, http://www.cs.cornell.edu/courses/cs6787/2017fa/Lecture7.pdf

9 gradient-descent gradient sgd non-convex

Pertanyaan yang diberi tag «sgd»