Mengapa SQP lebih baik daripada Augmented Lagrangian untuk pemrograman nonlinier?

Dalam laporan teknis tentang Galahad [1], penulis menyatakan, dalam konteks masalah pemrograman nonlinier umum,

Menurut pendapat kami, tidak pernah ada banyak keraguan bahwa metode SQP [sequential quadratic programming] akan lebih berhasil [daripada metode Augmented Lagrangian] dalam jangka panjang ...

Apa yang bisa menjadi dasar dari kepercayaan itu? Yaitu, apakah ada hasil teoritis yang menyarankan metode SQP harus lebih cepat / lebih dapat diandalkan daripada metode Augmented Lagrangian?

[1] Galahad, perpustakaan paket Fortran 90 yang aman untuk pengoptimalan nonlinear skala besar, oleh Gould, Orban, dan Toint

nonlinear-programming

— cjordan1
sumber

Metode SQP mensyaratkan bahwa tujuannya dua kali dapat dibedakan (lih. Https://en.m.wikipedia.org/wiki/Sequential_quadratic_programming ) sementara Augmented Lagrangians bekerja bahkan ketika tujuannya tidak dapat dibedakan (karenanya kebangkitan baru-baru ini dalam komunitas pengolahan gambar cf ftp: //arachne.math.ucla.edu/pub/camreport/cam09-05.pdf )

Saya tidak tahu tentang perangkat lunak galahad, tetapi jika seharusnya menyelesaikan masalah optimasi yang terdiferensiasi, itu mungkin akan jauh lebih baik dengan menggunakan metode yang diizinkan untuk membedakan fungsi tujuan.

— dranxo
sumber

Itu tidak benar bahwa SQP membutuhkan fungsi objektif dua kali dapat dibedakan. Anda mungkin hanya mendapatkan metode yang memiliki tingkat konvergensi yang lebih kecil jika fungsi obyektif memiliki diferensiabilitas yang lebih rendah, tetapi itu persis sama dengan metode augmented Lagrangian.

— Wolfgang Bangerth

Dalam hal iterasi luar, SQP harus menang karena mencakup informasi turunan kedua, sedangkan metode lagrangian yang diperluas seperti ADMM tidak.

Namun, satu hal yang perlu diingat adalah bahwa setiap iterasi untuk metode ini melibatkan penyelesaian sistem linier, jadi untuk melakukan perbandingan yang adil Anda harus memperhitungkan betapa mudahnya sistem ini menyelesaikannya.

(A^{T} A + ρ I) x = b,

$(A^TA + \rho I)x = b,$

A

$A$

ρ

$\rho$

min_{x} | | A x - b | |^{2}

$\min_x ||Ax-b||^2$

Untuk metode SQP Anda memecahkan sesuatu seperti mana adalah Hessian (atau perkiraannya) yang biasanya hanya tersedia secara implisit dalam hal tindakannya pada vektor, dan adalah gradien. Hessian mengandung tidak hanya , tetapi juga kombinasi dari matriks dan invers matriks lainnya yang berasal dari linierisasi kendala dan regularisasi.

H x = g,

$Hx = g,$

H

$H$

g

$g$

A

$A$

Mengkondisikan Hessians adalah bisnis yang cukup rumit dan jauh lebih sedikit dipelajari daripada mengkondisikan masalah ke depan. Metode standar adalah untuk memperkirakan invers Hessian dengan L-BFGS, tetapi ini efektivitas terbatas ketika invers Hessian adalah peringkat tinggi. Metode populer lainnya adalah dengan memperkirakan Hessian sebagai jumlah dari matriks peringkat-rendah plus matriks yang mudah untuk dibalik, tetapi ini juga memiliki efektivitas yang terbatas untuk masalah-masalah sulit. Teknik estimasi Hessian populer lainnya didasarkan pada pendekatan jarang, tetapi masalah kontinum sering memiliki Hessian yang memiliki pendekatan jarang.

— Nick Algeria
sumber

+1, walaupun saya ingin mengingatkan pernyataan blanket (maksud saya bukan jawaban ini). Misalnya, dalam optimisasi yang dibatasi oleh PDE, penerapan sering melibatkan penyelesaian PDE nonlinier, sementara dapat diterapkan dengan menyelesaikan dua PDE linier - yang dapat secara signifikan lebih murah (dan lebih mudah untuk prakondisi) jika PDE asli jahat.

A

$A$

H

$H$

— Christian Clason

Jadi, dapat diterapkan dengan memecahkan dua PDE, tetapi untuk menerapkan Anda harus menyelesaikan 2 PDE per iterasi kryolv dalam solver Anda. Di sisi lain adalah operator maju sehingga biasanya tidak melibatkan pemecahan PDE sama sekali. Biasanya orang benar-benar mengetahui matriks secara eksplisit, misalnya, stensil perbedaan hingga 5 titik pada mesh. Preconditioners untuk dapat digunakan untuk membangun preconditioners untuk , tetapi sulit untuk digunakan mereka untuk prasyarat .

H

$H$

H^{- 1}

$H^{-1}$

A

$A$

A

$A$

A

$A$

A^{T} A + ρ I

$A^TA + \rho I$

H

$H$

— Nick Alger

Jika adalah operator linier maju (yang tidak terjadi dalam optimasi dibatasi-PDE nonlinear), maka Anda tentu saja benar. Kalau tidak, menerapkan membutuhkan penyelesaian PDE linier per iterasi Newton (atau iterasi titik tetap), diikuti oleh yang lain untuk (yang selalu linier). Manakah dari dua metode ini yang membutuhkan lebih sedikit kerja total (katakanlah, dengan jumlah solus PDE linier) sangat tergantung pada masalah spesifik. Alat yang berbeda untuk pekerjaan yang berbeda, itu yang saya katakan.

A

$A$

A

$A$

A^{T}

$A^T$

— Christian Clason

Saya setuju tentang alat yang berbeda untuk pekerjaan yang berbeda. Gauss-Newton Hessian untuk masalah optimisasi terbatas PDE yang saya pikirkan - sehingga - adalah , dan Hessian selengkapnya adalah ini ditambah dengan istilah lainnya. Jadi di sini berisi dua invers dan berisi dua invers dalam invers.

min_{q, u} \frac{1}{2} | | C u - y | |^{2} + \frac{α}{2} | | R q | |^{2}

$\min_{q,u} \frac{1}{2}||Cu - y||^2 + \frac{\alpha}{2}||Rq||^2$

A u = q

$Au=q$

H = A^{- T} C^{T} C A^{- 1} + α R^{T} R

$H = A^{-T}C^TCA^{-1} + \alpha R^T R$

H

$H$

H^{- 1}

$H^{-1}$

— Nick Alger

Dan saya memiliki kendala dalam pikiran (misalnya, peta untuk solusi dari , yang muncul dalam identifikasi parameter atau optimasi topologi).

S (q) = u

$S(q) = u$

S

$S$

q

$q$

u

$u$

- \nabla \cdot (q \nabla u) = f

$-\nabla\cdot(q\nabla u) = f$

— Christian Clason