Gradient descent dan descent gradient descent

11

Untuk sebuah proyek, saya harus mengimplementasikan kedua metode ini dan membandingkan kinerjanya pada fungsi yang berbeda.

Sepertinya metode gradien konjugasi dimaksudkan untuk menyelesaikan sistem persamaan linear untuk

A x = b

$A\mathbf{x} = \mathbf{b}$

Di mana adalah matriks n-by-n yang simetris, pasti-positif dan nyata. $A$

Di sisi lain, ketika saya membaca tentang gradient descent, saya melihat contoh fungsi Rosenbrock , yaitu

f (x_{1}, x_{2}) = (1 - x_{1})^{2} + 100 (x_{2} - x_{1}^{2})^{2}

$f(x_1,x_2) = (1-x_1)^2+100(x_2-x_1^2)^2$

Seperti yang saya lihat, saya tidak bisa menyelesaikan ini dengan metode gradien konjugat. Atau apakah saya melewatkan sesuatu?

optimization conjugate-gradient

— Philipp
sumber

14

Keturunan gradien dan metode gradien konjugasi keduanya algoritma untuk meminimalkan fungsi nonlinier, yaitu, fungsi seperti fungsi Rosenbrock

$f(x_1,x_2) = (1-x_1)^2 + 100(x_2 - x_1^2)^2$

atau fungsi kuadrat multivariat (dalam hal ini dengan istilah kuadrat simetris)

$f(x) = \frac{1}{2} x^T A^T A x - b^T A x.$

Kedua algoritma juga berbasis iteratif dan pencarian berdasarkan. Untuk sisa tulisan ini, , dan akan menjadi vektor dengan panjang ; dan adalah skalar, dan superskrip menunjukkan indeks iterasi. Keturunan gradien dan metode gradien konjugat dapat digunakan untuk menemukan nilai yang memecahkan $x$ $d$ $n$ $f(x)$ $\alpha$ $x^*$

$\min f(x)$

Kedua metode dimulai dari tebakan awal, , dan kemudian menghitung iterate berikutnya menggunakan fungsi formulir $x^0$

$x^{i+1} = x^i + \alpha^i d^i.$

Dengan kata lain, nilai berikutnya ditemukan dengan mulai dari lokasi saat ini , dan bergerak ke arah pencarian untuk beberapa jarak . Dalam kedua metode, jarak untuk bergerak dapat ditemukan oleh pencarian baris (perkecil atas ). Kriteria lain juga dapat diterapkan. Di mana dua metode berbeda adalah dalam pilihan mereka . Untuk metode gradien, . Untuk metode gradien konjugasi, prosedur Grahm-Schmidt digunakan untuk orthogonalize vektor gradien. Secara khusus, , tetapi kemudian sama $x$ $x^i$ $d^i$ $\alpha^i$ $f(x^i + \alpha^i d^i)$ $\alpha_i$ $d^i$ $d^i = -\nabla f(x^i)$ $d^0 = -\nabla f(x^0)$ $d^1$ $-\nabla f(x^1)$ minus proyeksi vektor ke sehingga . Setiap vektor gradien berikutnya adalah ortogonalisasi terhadap semua yang sebelumnya, yang mengarah ke properti yang sangat bagus untuk fungsi kuadrat di atas. $d^0$ $(d^1)^Td^0 = 0$

Fungsi kuadrat di atas (dan formulasi terkait) juga merupakan tempat pembahasan penyelesaian menggunakan metode gradien konjugasi, karena minimum tersebut dicapai pada titik mana . $Ax = b$ $f(x)$ $x$ $Ax = b$

— Elaine Hale
sumber

9

Dalam konteks ini, kedua metode dapat dianggap sebagai masalah minimisasi fungsi: Ketika simetris, maka diminimalkan ketika .

ϕ (x) = \frac{1}{2} x^{T} A x - x^{T} b

$\phi(\boldsymbol{x}) = \frac{1}{2}\boldsymbol{x}^T\boldsymbol{A}\boldsymbol{x} - \boldsymbol{x}^T\boldsymbol{b}$

A

$\boldsymbol{A}$

ϕ

$\phi$

A x = b

$\boldsymbol{A}\boldsymbol{x} = \boldsymbol{b}$

Gradient descent adalah metode yang secara iteratif mencari minimizer dengan melihat arah gradien. Konjugasi gradien serupa, tetapi arah pencarian juga diperlukan untuk menjadi ortogonal satu sama lain dalam arti bahwa . $\boldsymbol{p}_i^T\boldsymbol{A}\boldsymbol{p_j} = 0 \; \; \forall i,j$

— Bill Barth
sumber