Baru-baru ini saya telah membaca makalah oleh Yann Dauphin et al. Mengidentifikasi dan menyerang masalah saddle point dalam optimasi non-cembung dimensi tinggi , di mana mereka memperkenalkan algoritma keturunan yang menarik yang disebut Saddle-Free Newton , yang tampaknya dirancang khusus untuk optimalisasi jaringan saraf dan tidak boleh menderita macet di sadel poin seperti metode urutan pertama sebagai vanilla SGD.
Makalah ini tanggal kembali ke 2014, jadi bukan hal yang baru, namun, saya belum melihatnya digunakan "di alam liar". Mengapa metode ini tidak digunakan? Apakah perhitungan Hessian terlalu mahal untuk masalah / jaringan berukuran dunia nyata? Apakah bahkan ada beberapa implementasi open source dari algoritma ini, mungkin untuk digunakan dengan beberapa kerangka pembelajaran yang mendalam?
Pembaruan Feb 2019: ada implementasi yang tersedia sekarang: https://github.com/dave-fernandes/SaddleFreeOptimizer )