Motivasi intuitif untuk pembaruan BFGS

Saya mengajar kelas survei analisis numerik dan mencari motivasi untuk metode BFGS untuk siswa dengan latar belakang / intuisi terbatas dalam optimasi!

Meskipun saya tidak punya waktu untuk membuktikan dengan ketat bahwa semuanya menyatu, saya mencari untuk memberikan motivasi yang masuk akal mengapa pembaruan BFGS Hessian mungkin muncul. Sebagai analogi, metode pencarian-akar Broyden (artikel saya ada di sini ) dapat dimotivasi dengan meminta perkiraan Anda tentang Jacobian meminimalkan perbedaan dengan subjek Jacobian lama dengan batasan yang memperhitungkan garis potong terbaru: . $\|J_k-J_{k-1}\|^2_{\textrm{Fro}}$ $J_k(\vec x_k-\vec x_{k-1})=f(\vec x_k)-f(\vec x_{k-1})$

Turunnya pembaruan BFGS tampaknya jauh lebih terlibat dan suram! Secara khusus, saya ingin tidak menganggap apriori bahwa pembaruan harus peringkat-2 atau mengambil bentuk tertentu. Apakah ada motivasi pendek yang mencari variasi untuk pembaruan BFGS Hessian seperti untuk Broyden?

optimization iterative-method nonlinear-programming

— Justin Solomon
sumber

Jika Anda mengizinkan pembaruan sewenang-wenang, maka Anda bisa menggunakan Hessian lengkap dalam metode Newton. Salah satu keunggulan komputasi utama dari pembaruan peringkat rendah adalah memungkinkan Anda untuk memperbarui faktorisasi perkiraan Goni dengan sangat cepat.

— Brian Borchers

Derivasi BFGS lebih intuitif ketika seseorang menganggap (secara ketat) fungsional biaya cembung:

Namun, beberapa informasi latar belakang diperlukan: Asumsikan, seseorang ingin meminimalkan fungsional cembung Katakanlah ada solusi perkiraan . Kemudian, kita mendekati minimum dengan minimum ekspansi Taylor yang terpotong Artinya, orang mencari sehingga minimal dan set . Komputasi gradien dari - "sehubungan dengan " - dan pengaturannya ke nol memberikan hubungan

f (x) \to min_{x \in R^{n}} .

$f(x) \to \min_{x\in \mathbb R^n}.$

x_{k}

$x_k$

f

$f$

f (x_{k} + hal) \approx f (x_{k}) + \nabla f (x_{k})^{T} hal + \frac{1}{2} {hal}^{T} H (x_{k}) hal . (*)

$f(x_k+p) \approx f(x_k) +\nabla f(x_k)^Tp + \frac{1}{2}p^T H(x_k)p. \quad(*)$

p

$p$

(*)

$(*)$

x_{k + 1} := x_{k} + p

$x_{k+1} := x_k + p$

(*)

$(*)$

p

$p$

H (x_{k}) [x_{k + 1} - x_{k}] = \nabla f (x_{k + 1}) - \nabla f (x_{k}),

$H(x_k)[x_{k+1} - x_k] = \nabla f(x_{k+1}) - \nabla f(x_k),$ mana adalah 'Jacobian of the gradient' atau matriks Hessian.

H

$H$

Karena perhitungan dan inversi Hessian mahal ...

... jawaban singkat

(lih. Pembaruan Broyden) mungkin karena pembaruan BFGS meminimalkan dalam norma Frobenius tertimbang yang dipilih secara cerdas, tunduk pada $H_{k+1}^{-1}$

‖ H_{k}^{- 1} - H^{- 1} ‖_{W}

$\|H_k^{-1} - H^{-1}\|_W$

$H[x_{k+1} - x_k] = \nabla f(x_{k+1}) - \nabla f(x_k)$ - ini adalah tujuan dari siapa - dan
$H^T = H$ , karena Hessian simetris.

Maka pilihan bobot dalam ~~sebagai kebalikan dari~~ Goni rata-rata , lih. di sini untuk pernyataan tetapi tanpa bukti, berikan rumus pembaruan BFGS (dengan ). $W$ $\|H\|_W := \|W^{1/2}HW^{1/2}\|_F$ $G:=\int_0^1 H(x_k + \tau p) d\tau$ $\alpha_k = 1$

Poin utamanya adalah:

Seseorang mencoba memperkirakan solusi untuk biaya aktual dengan solusi untuk perkiraan kuadratik
Perhitungan Hessian, dan kebalikannya, mahal. Satu lebih suka pembaruan sederhana.
Pembaruan dipilih optimal untuk kebalikan daripada Goni yang sebenarnya.
Bahwa itu adalah pembaruan peringkat-2 adalah konsekuensi dari pilihan bobot tertentu dalam norma Frobenius.

Sebuah jawaban yang lebih panjang , harus mencakup bagaimana memilih bobot, bagaimana membuat karya ini untuk masalah nonconvex (di mana kondisi kelengkungan muncul yang memerlukan skala dari arah pencarian ), dan bagaimana untuk menurunkan sebenarnya rumus untuk update. Referensi ada di sini (dalam bahasa Jerman). $p$

— Jan
sumber

Terima kasih banyak, ini luar biasa (dan kurang lebih apa yang saya harapkan berdasarkan diskusi di Nocedal & Wright). Satu pertanyaan yang tersisa yang saya miliki adalah: mengapa kita memilih dan norma seperti yang kita lakukan? Saya mengerti bahwa itu ada hubungannya dengan unit, tetapi ada banyak pilihan potensial dan norma yang melakukan ini.

W

$W$

W

$W$

— Justin Solomon

Ya benar. Ya saya tidak tahu. Salah satu jawabannya adalah memberikan rumus pembaruan yang mudah dihitung dan berfungsi dengan baik. Secara historis, pendekatan terhadap pembaruan ini - meminimalkan perbedaan dalam pembaruan - adalah yang dilakukan oleh Shanno. Adalah seorang wasit (Goldfarb) yang menemukan bahwa pilihan bobot tertentu mengarah ke formula Broyden dan Fletcher. Lihat tesis PhD ini. Perkembangan historis dari metode garis potong BFGS ... untuk intuisi para pengembang BFGS. Namun, ketiga pendekatan tersebut cukup abstrak.

— Jan

Menarik, terima kasih untuk panduannya! Langgan saya saat ini (dengan beberapa kesalahan matematika yang perlu bantuan) ada di sini: graphics.stanford.edu/courses/cs205a-13-fall/assets/notes/… (jika Anda ingin kredit atas bantuan Anda, saya senang untuk menyediakannya - tolong email saya dengan info kontak yang cocok)

— Justin Solomon

H (x_{k}) [x_{k + 1} - x_{k}] = \nabla f (x_{k + 1}) - \nabla f (x_{k})

$H(x_k)[x_{k+1} - x_k] = \nabla f(x_{k+1}) - \nabla f(x_k)$

H (x_{k + 1}) [x_{k + 1} - x_{k}] = \nabla f (x_{k + 1}) - \nabla f (x_{k}) ?

$H(x_{k+1})[x_{k+1} - x_k] = \nabla f(x_{k+1}) - \nabla f(x_k)?$

H_{k + 1} s_{k} = y_{k}

$H_{k+1}s_k =y_k$

s_{k} = x_{k + 1} - x_{k}, y_{k} = \nabla f_{k + 1} - \nabla f_{k}

$s_k=x_{k+1}-x_k, y_k=\nabla f_{k+1}-\nabla f_k$