[Catatan 5 April 2019: Versi baru makalah ini telah diperbarui di arXiv dengan banyak hasil baru. Kami juga memperkenalkan versi backtracking Momentum dan NAG, dan membuktikan konvergensi di bawah asumsi yang sama seperti untuk Backtracking Gradient Descent.
Kode sumber tersedia di GitHub di tautan: https://github.com/hank-nguyen/MBT-optimizer
Kami meningkatkan algoritme untuk mendaftar ke DNN, dan memperoleh kinerja yang lebih baik daripada algoritma canggih seperti MMT, NAG, Adam, Adamax, Adagrad, ...
Fitur paling khusus dari algoritme kami adalah algoritme itu otomatis, Anda tidak perlu melakukan penyesuaian tingkat pembelajaran secara manual sebagai praktik umum. Penyesuaian otomatis otomatis kami berbeda dari Adam, Adamax, Adagrad, ... dan seterusnya. Rincian lebih lanjut ada di koran.
]
Berdasarkan hasil yang sangat baru: Dalam pekerjaan bersama saya di makalah ini https://arxiv.org/abs/1808.05160
f
Berdasarkan hal di atas, kami mengusulkan metode baru dalam pembelajaran mendalam yang setara dengan metode mutakhir dan tidak memerlukan penyesuaian tingkat pembelajaran secara manual. ( Singkatnya , idenya adalah bahwa Anda menjalankan backtracking gradient descent dalam jumlah waktu tertentu, sampai Anda melihat bahwa laju pembelajaran, yang berubah dengan setiap iterasi, menjadi stabil. Kami mengharapkan stabilisasi ini, khususnya pada titik kritis yang merupakan C ^ 2 dan non-degenerate, karena hasil konvergensi yang saya sebutkan di atas. Pada saat itu, Anda beralih ke metode gradient descent standar. Silakan lihat kertas yang dikutip untuk lebih detail. Metode ini juga dapat diterapkan pada algoritma optimal lainnya .)
PS Mengenai pertanyaan awal Anda tentang metode penurunan gradien standar, setahu saya hanya dalam kasus di mana turunan peta secara global Lipschitz dan tingkat pembelajaran cukup kecil sehingga metode penurunan gradien standar terbukti menyatu. [Jika kondisi ini tidak terpenuhi, ada contoh tandingan sederhana yang menunjukkan bahwa tidak ada hasil konvergensi yang mungkin terjadi, lihat kertas yang dikutip untuk beberapa.] Dalam makalah yang dikutip di atas, kami berpendapat bahwa dalam jangka panjang metode backtracking gradient descent akan menjadi metode penurunan gradien standar, yang memberikan penjelasan mengapa metode penurunan gradien standar biasanya bekerja dengan baik dalam praktik.