Dalam jawaban ini saya akan mengeksplorasi dua makalah yang menarik dan relevan yang diangkat dalam komentar. Sebelum melakukannya, saya akan berusaha untuk memformalkan masalah dan menjelaskan beberapa asumsi dan definisi. Saya mulai dengan makalah 2016 oleh Lee et al.
Kami berupaya meminimalkan fungsi non-cembung f:Rd→Ryang dibatasi di bawah ini. Kami mengharuskannya dua kali dapat dibedakan. Kami menggunakan algoritma gradient descent dari formulir:
xxt+1=xxt−α∇f(xxt).
Selain itu, kami memiliki persyaratan berikut:
∥ ∇ f(xx1) - ∇ f(xx2) ∥ ≤ ℓ ∥xx1-xx2∥ ,untuk semua xx1,xx2.
Artinya, kita membutuhkan fungsi kita menjadi -Lipschitz dalam turunan pertamanya. Dalam bahasa Inggris ini berarti gagasan bahwa gradien kami tidak dapat berubah terlalu cepat di mana pun di domain. Asumsi ini memastikan bahwa kita dapat memilih ukuran langkah sehingga kita tidak pernah berakhir dengan langkah-langkah yang berbeda.ℓ
Ingat bahwa suatu titik dikatakan sebagai pelana yang ketat jika dan dan . Jika semua nilai eigen Hessian memiliki tanda yang sama maka intinya adalah minimum (jika positif) atau maksimum (jika negatif). Jika ada 0 nilai eigen maka dikatakan degenerasi, dan itu bukan pelana yang ketat.xx∇ f(xx )=0λmin(∇2f(xx ) ) <0λmaks(∇2f(xx ) ) >0
Makalah ini menunjukkan bahwa dengan asumsi di atas, bersama dengan asumsi bahwa semua titik sadel fungsi adalah sadel ketat, gradient descent dijamin akan menyatu ke minimum.
Buktinya cukup teknis, tetapi intuisinya adalah: definisikan satu set , di mana adalah titik pelana. Saya tidak suka notasi ini sama sekali. Apa yang mereka coba dapatkan adalah bahwa adalah himpunan nilai awal untuk mana peta gradien mengirim ke . Sederhananya, itu adalah set inisialisasi acak yang pada akhirnya akan menyatu menjadi pelana.Ws(xxs) = {xx :limkgk(xx )=xxs}xxsWg:Rd→Rdxxkxxs
Argumen mereka bergantung pada Teorema Berjenis Stabil. Dengan asumsi di atas dan sekelompok matematika esoterik mereka menyimpulkan bahwa himpunan harus berukuran nol, yaitu, ada nol kemungkinan menginisialisasi secara acak pada titik yang akan konvergen ke titik pelana. Seperti yang kita ketahui bahwa gradient descent pada fungsi-fungsi dari tipe yang digariskan dalam asumsi dengan ukuran langkah kecil yang sesuai akhirnya akan mencapai titik kritis, dan kita sekarang tahu (hampir pasti) bahwa ia tidak akan pernah mendarat di pelana, kita tahu bahwa itu menyatu ke sebuah minimizer.Ws
Makalah kedua, yang lebih baru oleh Reddi et al. Saya akan membahas secara lebih rinci. Ada beberapa perbedaan. Pertama, mereka tidak lagi bekerja dalam kerangka deterministik, sebagai gantinya memilih kerangka kerja perkiraan stokastik yang lebih relevan secara praktis dengan jumlah yang terbatas (pikirkan Stochastic Gradient Descent). Perbedaan utama ada bahwa ukuran langkah memerlukan beberapa perawatan tambahan, dan gradien menjadi variabel acak. Selain itu, mereka mengendurkan asumsi bahwa semua sadel ketat, dan mencari titik stasioner orde kedua. Yaitu, titik sedemikian rupa,
∥ ∇ ( f) ∥ ≤ ϵ ,dan ,λmin(∇2f(xx ) ) ≥-ρ ϵ--√
Di mana adalah konstanta Lipschitz untuk Hessian. (Yaitu, di samping persyaratan bahwa gradien kami tidak berubah terlalu cepat, kami sekarang memiliki persyaratan serupa pada Hessian kami. Pada dasarnya, penulis mencari titik yang terlihat seperti minima dalam turunan pertama dan kedua.r h o
Metode yang digunakan untuk mencapai hal ini adalah dengan menggunakan varian (pilih favorit Anda) dari penurunan gradien stokastik sebagian besar waktu. Tetapi di mana pun mereka menemukan titik di mana , mereka menggunakan metode urutan kedua yang dipilih secara tepat untuk menghindari pelana. Mereka menunjukkan bahwa dengan memasukkan informasi urutan kedua ini sesuai kebutuhan, mereka akan bertemu ke titik stasioner urutan kedua.λmin(∇2f(xx ) ) ≤0
Secara teknis ini adalah metode gradien urutan kedua, yang mungkin atau mungkin tidak jatuh di bawah payung algoritma yang Anda minati.
Ini adalah bidang penelitian yang sangat aktif dan saya telah meninggalkan banyak kontribusi penting (ex Ge et al. ). Saya juga baru dalam topik ini sehingga pertanyaan ini telah memberi saya kesempatan untuk melihat. Saya senang melanjutkan diskusi jika ada minat.
*** Yang dipilih dengan tepat berarti satu yang ditunjukkan untuk menyatu ke titik stasioner orde kedua. Mereka menggunakan metode Newton yang diregulasi oleh Cubic, Nesterov dan Polyak.