Pertanyaan yang diberi tag «gradient-descent»

Gradient descent adalah algoritma pengoptimalan iteratif tingkat pertama. Untuk menemukan minimum lokal dari suatu fungsi menggunakan gradient descent, seseorang mengambil langkah-langkah sebanding dengan negatif dari gradien (atau perkiraan gradien) dari fungsi pada titik saat ini. Untuk keturunan gradien stokastik ada juga tag [sgd].

5
Mengapa k-means tidak memberikan minimum global?
Saya membaca bahwa algoritma k-means hanya konvergen ke minimum lokal dan bukan ke minimum global. Kenapa ini? Saya secara logis dapat memikirkan bagaimana inisialisasi dapat mempengaruhi pengelompokan akhir dan ada kemungkinan pengelompokan sub-optimal, tetapi saya tidak menemukan apa pun yang secara matematis akan membuktikannya. Juga, mengapa k-berarti proses berulang? Tidak …


3
Apa perbedaan antara Pembelajaran online dan batch?
Saat ini saya membaca makalah Efisien Online dan Batch Learning menggunakan Forward-Backward Splitting oleh John Duchi dan Yoram Singer. Saya sangat bingung tentang penggunaan istilah 'Online' dan 'Batch'. Saya pikir 'Online' berarti kami memperbarui parameter bobot setelah memproses satu unit data pelatihan. Kemudian kami menggunakan parameter bobot baru untuk memproses …

1
Bagaimana penurunan gradien stokastik dapat menghemat waktu dibandingkan dengan penurunan gradien standar?
Keturunan Gradien Standar akan menghitung gradien untuk seluruh dataset pelatihan. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Untuk jumlah zaman yang ditentukan sebelumnya, pertama-tama kita menghitung vektor gradien weights_grad dari fungsi kerugian untuk seluruh dataset menggunakan parameter vektor parameter kami. Stochastic …

1
Klarifikasi tentang Peraturan Perceptron vs. Keturunan Gradien vs. Penerapan Keturunan Gradien Stokastik
Saya bereksperimen sedikit dengan implementasi Perceptron yang berbeda dan ingin memastikan apakah saya memahami "iterasi" dengan benar. Aturan perceptron asli Rosenblatt Sejauh yang saya mengerti, dalam algoritma perceptron klasik Rosenblatt, bobot secara bersamaan diperbarui setelah setiap contoh pelatihan melalui Δ b( t + 1 )= Δ w( t )+ η( …


1
Bagaimana CNN menghindari masalah gradien yang hilang
Saya telah membaca banyak tentang jaringan saraf convoloutional dan bertanya-tanya bagaimana mereka menghindari masalah gradien menghilang. Saya tahu jaringan kepercayaan yang mendalam menumpuk auto-encoders tingkat tunggal atau jaringan dangkal pra-terlatih lainnya dan dengan demikian dapat menghindari masalah ini, tetapi saya tidak tahu bagaimana hal itu dihindari di CNN. Menurut Wikipedia …

1
Mengapa kita tidak menggunakan laju pembelajaran non-konstan untuk gradien yang layak untuk hal-hal lain selain jaringan saraf?
Literatur pembelajaran yang mendalam penuh dengan trik pintar dengan menggunakan tingkat pembelajaran yang tidak konstan dalam gradient descent. Hal-hal seperti peluruhan eksponensial, RMSprop, Adagrad dll mudah untuk diimplementasikan dan tersedia di setiap paket pembelajaran yang mendalam, namun mereka tampaknya tidak ada di luar jaringan saraf. Apakah ada alasan untuk ini? …

4
Bagaimana bisa terperangkap di sadel?
Saat ini saya agak bingung dengan bagaimana mini-batch gradient descent dapat terperangkap di titik sadel. Solusinya mungkin terlalu sepele sehingga saya tidak mengerti. Anda mendapatkan sampel baru setiap zaman, dan menghitung kesalahan baru berdasarkan batch baru, sehingga fungsi biaya hanya statis untuk setiap batch, yang berarti bahwa gradien juga harus …

1
Fungsi biaya untuk bandit kontekstual
Saya menggunakan vowpal wabbit untuk menyelesaikan masalah bandit kontekstual . Saya menampilkan iklan kepada pengguna, dan saya memiliki sedikit informasi yang adil tentang konteks di mana iklan ditampilkan (misalnya siapa pengguna, situs apa yang mereka pakai, dll.). Ini tampaknya menjadi masalah bandit kontekstual yang cukup klasik, seperti yang dijelaskan oleh …

2
Gradient descent vs lm () berfungsi dalam R?
Saya akan melihat video dalam kursus pembelajaran mesin online gratis Andrew Ng di Stanford. Dia membahas Gradient Descent sebagai algoritma untuk menyelesaikan fungsi regresi linear dan penulisan dalam Oktaf untuk melakukannya. Agaknya saya bisa menulis ulang fungsi-fungsi di R, tetapi pertanyaan saya adalah bukankah fungsi lm () sudah memberi saya …


1
Mengapa algoritma keturunan “Saddle-Free Newton” tidak digunakan dalam praktik?
Baru-baru ini saya telah membaca makalah oleh Yann Dauphin et al. Mengidentifikasi dan menyerang masalah saddle point dalam optimasi non-cembung dimensi tinggi , di mana mereka memperkenalkan algoritma keturunan yang menarik yang disebut Saddle-Free Newton , yang tampaknya dirancang khusus untuk optimalisasi jaringan saraf dan tidak boleh menderita macet di …

1
Memilih ukuran minibatch yang sesuai untuk stochastic gradient descent (SGD)
Apakah ada literatur yang meneliti pilihan ukuran minibatch saat melakukan stochastic gradient descent? Dalam pengalaman saya, ini tampaknya menjadi pilihan empiris, biasanya ditemukan melalui validasi silang atau menggunakan berbagai aturan praktis. Apakah ide yang baik untuk secara perlahan meningkatkan ukuran minibatch saat kesalahan validasi berkurang? Apa efek ini pada kesalahan …


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.