Seperti yang disebutkan Jed Brown, hubungan antara penurunan gradien dalam optimasi nonlinier dan loncatan waktu dari sistem dinamis ditemukan kembali dengan beberapa frekuensi (dapat dimengerti, karena ini adalah koneksi yang sangat memuaskan dengan pikiran matematika karena menghubungkan dua bidang yang tampaknya berbeda). Namun, ini jarang menjadi koneksi yang bermanfaat , terutama dalam konteks yang Anda gambarkan.
Dalam masalah terbalik, orang yang tertarik dalam memecahkan persamaan operator (ill-posed) dengan tidak di kisaran . (Masalah kontrol optimal Anda dapat dilihat sebagai satu contoh dengan dan .) Beberapa strategi regularisasi (seperti Tikhonov atau Landweber) dapat diartikan sebagai waktu semu tunggal langkah kelas tertentu. Idenya adalah untuk menggunakan interpretasi dari parameter regularisasi sebagai panjang langkah untuk mendapatkan beberapa aturan pilihan (adaptif, a posteriori) untuk parameter - masalah mendasar dalam masalah terbalik - dan mungkin membuat beberapa langkah waktu semu untuk mendekati solusi sejati yang tidak diatur (mirip dengany δ F F = A - 1 y δ = y 0F( u ) = yδyδFF= A- 1yδ= y0kelanjutan numerik ). Ini kadang-kadang disebut regularisasi berkelanjutan , dan biasanya dibahas dalam konteks metode level set; lihat, misalnya, Bab 6.1 dari Kaltenbacher, Scherzer, Neubauer: Metode Regularisasi Iteratif untuk Masalah-Masalah Non-Linier yang Berpose Tidak Benar (de Gruyter, 2008).
Konteks kedua ide ini berulang kali muncul adalah optimasi nonlinier: Jika Anda melihat langkah penurunan gradien untuk ,
maka Anda dapat menafsirkan ini sebagai maju Euler langkah untuk sistem dinamik
Seperti yang Jed Brown tunjukkan, pada pandangan pertama ini hanya menghasilkan pengamatan yang tidak terlalu mengejutkan bahwa metode ini bertemu, asalkan langkah pseudo-time cukup kecil. Bagian yang menarik datang ketika Anda melihat sistem dinamis dan bertanya pada diri sendiri apa sifat solusi kontinu dari apa yang disebut aliran gradienx k + 1 = x k - γ k ∇ f ( x k ) , ˙ x ( t ) = - ∇ f ( x ( t ) ) ,minxf( x )
xk + 1= xk- γk∇ f( xk) ,
γ k x ( t )x˙( t ) = - ∇ f( x ( t ) ) ,x ( 0 ) = x0.
γkx ( t )memiliki (atau seharusnya memiliki), independen dari penurunan gradien, dan apakah itu mungkin tidak mengarah pada waktu yang lebih tepat melangkah (dan karenanya optimasi) metode daripada standar Euler. Beberapa contoh dari atas kepala saya:
Apakah ada ruang fungsi alami di mana aliran gradien hidup? Jika demikian, langkah gradien Anda harus diambil dari ruang yang sama (yaitu, diskritisasi harus sesuai). Ini mengarah, misalnya, untuk menghitung representasi Riesz dari gradien sehubungan dengan produk dalam yang berbeda (kadang-kadang disebut gradien Sobolev ) dan, dalam praktiknya, untuk iterasi yang dikondisikan sebelumnya yang konvergen yang jauh lebih cepat.
Mungkin seharusnya bukan milik ruang vektor, tetapi untuk manifold (misalnya, matriks pasti positif simetris), atau aliran gradien harus menghemat norma tertentu . Dalam hal ini, Anda dapat mencoba menerapkan skema loncatan waktu-mempertahankan struktur (misalnya, melibatkan tarik-mundur sehubungan dengan kelompok Lie yang sesuai atau integrator geometrik).xxx
Jika tidak dapat dibedakan tetapi cembung, langkah Euler ke depan sesuai dengan metode keturunan subgradien yang bisa sangat lambat karena batasan ukuran langkah. Di sisi lain, langkah Euler implisit berhubungan dengan metode titik proksimal , yang tidak ada batasan seperti itu (dan yang dengan demikian telah menjadi sangat populer di, misalnya, pemrosesan gambar).f
Dalam nada yang sama, metode seperti itu dapat dipercepat secara signifikan dengan langkah-langkah ekstrapolasi. Salah satu cara untuk memotivasi ini adalah dengan mengamati bahwa metode standar orde pertama menderita karena harus membuat banyak langkah kecil dekat dengan minimizer, karena arah gradien "berosilasi" (pikirkan ilustrasi standar mengapa gradien konjugat mengungguli penurunan curam). Untuk memperbaiki ini, seseorang dapat "meredam" iterasi dengan tidak menyelesaikan sistem dinamika orde pertama, tetapi sistem orde dua teredam :
untuk dipilih dengan . Dengan diskritisasi yang tepat, ini mengarah ke iterasi (dikenal sebagai metode bola berat Polyak ) dari formulir
Sebuah1x¨( t ) + a2x˙( t ) = - ∇ f( x ( t ) )
Sebuah1, a2xk + 1= xk- γk∇ f( xk) + αk( xk- xk - 1)
(dengan tergantung pada ). Gagasan serupa ada untuk metode titik proksimal, lihat, misalnya, makalah http://arxiv.org/pdf/1403.3522.pdf oleh Dirk Lorenz dan Thomas Pock.γk, αkSebuah1, a2
(Saya harus menambahkan itu sepengetahuan saya, dalam sebagian besar kasus ini penafsiran sebagai sistem dinamis tidak sepenuhnya diperlukan untuk derivasi atau bukti konvergensi algoritma; orang dapat berpendapat bahwa ide-ide seperti "implisit vs eksplisit" atau turunan Lie) sebenarnya lebih mendasar daripada sistem dinamik atau metode gradient descent. Namun, tidak ada salahnya memiliki sudut pandang lain untuk melihat masalah.)
EDIT: Saya baru saja menemukan contoh yang sangat baik dari konteks kedua, di mana interpretasi ODE digunakan untuk menyimpulkan sifat-sifat metode ekstragradien Nesterov dan menyarankan perbaikan:
http://arxiv.org/pdf/1503.01243.pdf
(Perhatikan bahwa ini juga contoh dari poin Jed Brown, di mana penulis pada dasarnya menemukan kembali poin 4 di atas tanpa tampaknya menyadari algoritma Polyak.)
EDIT 2: Dan sebagai indikasi seberapa jauh Anda dapat mengambil ini, lihat halaman 5 dari http://arxiv.org/pdf/1509.03616v1.pdf .