Kerugian dari pendekatan Newton-Raphson dengan perkiraan turunan numerik

Misalkan saya memiliki beberapa fungsi $f$ dan saya ingin mencari sedemikian rupa sehingga . Saya mungkin menggunakan metode Newton-Raphson. Tapi ini mengharuskan saya tahu fungsi turunan . Ekspresi analitik untuk mungkin tidak tersedia. Sebagai contoh, dapat didefinisikan oleh sepotong kode komputer yang rumit yang berkonsultasi dengan basis data nilai eksperimental. $x$ $f(x)\approx 0$ $f'(x)$ $f$ $f$

Tetapi bahkan jika rumit, saya dapat memperkirakan untuk tertentu dengan memilih sejumlah kecil dan menghitung . $f'$ $f'(a)$ $a$ $\epsilon$ $f'(a) \approx {f(a+\epsilon) - f(a)\over\epsilon}$

Saya telah mendengar bahwa ada beberapa kelemahan dari pendekatan ini, tetapi saya tidak tahu apa itu. Wikipedia mengisyaratkan bahwa "Menggunakan perkiraan ini akan menghasilkan sesuatu seperti metode garis potong yang konvergensinya lebih lambat daripada metode Newton."

Dapatkah seseorang tolong uraikan hal ini, dan berikan referensi yang secara khusus membahas masalah dengan teknik ini?

reference-request approximation

— Mark Dominus
sumber

Metode garis potong adalah alternatif yang sangat baik ketika turunannya mahal untuk dihitung. Tiga langkah garis potong umumnya kira-kira setara dengan dua langkah Newton, dan langkah lebih murah.

Setiap kali Anda menghitung turunan secara numerik dengan selisih terbatas (seperti yang Anda sarankan), setiap derau dalam fungsi diperkuat, jadi Anda harus memilih epsilon dengan hati-hati. Salah satu kemungkinan adalah, ketika Anda mendekati solusi, beralih ke metode pembagian biner, yang dijamin akan menyatu selama f adalah monoton lokal.

— Mike Dunlavey

Seperti disebutkan oleh André, turunan numerik dua titik, seperti yang Anda sarankan, setara dengan metode Secant yang dimulai kembali . Untuk konvergensi yang lebih cepat, saya akan menyarankan apa yang disebut algoritma Illinois , yang merupakan kerabat dekat dari metode Secant dan hanya akan menggunakan satu titik per langkah, sebagai lawan dua dalam kasus Anda, dan tidak akan macet seperti Metode posisi salah.

— Pedro

Apa dimensi

? Semakin tinggi dimensinya, semakin bernilai turunannya. Newton-Krylov yang bebas Jacobian adalah opsi yang tidak memerlukan turunan eksplisit (meskipun prasyarat penting untuk sistem yang dikondisikan dengan buruk).

x

$x$

— Jed Brown

Demi notasi, anggaplah (yaitu, ini adalah fungsi bernilai vektor yang mengambil vektor sebagai input dan menghasilkan vektor dengan ukuran yang sama). Ada dua masalah: biaya komputasi dan akurasi numerik. $f: \mathbb{R}^{n} \rightarrow \mathbb{R}^{n}$

Menghitung turunan (matriks Jacobian, , atau , atau apapun yang Anda suka) menggunakan perbedaan terbatas akan membutuhkan evaluasi fungsi. Jika Anda dapat menghitung turunan menggunakan aritmatika titik mengambang langsung dari definisi, Anda harus menghitung hasil bagi selisih $\mathrm{D}f(x)$ $J(x)$ $(\nabla f(x))^{T}$ $n$

\begin{aligned} D f (x) e_{saya} = lim_{ε \to 0} \frac{f (x + ε e_{saya}) - f (x)}{ε} \end{aligned}

$\begin{align} \mathrm{D}f(x)e_{i} = \lim_{\varepsilon \rightarrow 0} \frac{f(x + \varepsilon e_{i}) - f(x)}{\varepsilon} \end{align}$

untuk setiap , dengan asumsi Anda tidak melakukan apapun "terbatas pintar differencing" (seperti Curtis-Powell-Reid) karena Anda tahu (atau dapat mendeteksi) pola sparsity dari . Jika besar, itu bisa menjadi banyak evaluasi fungsi. Jika Anda memiliki ekspresi analitis untuk , maka perhitungan itu bisa lebih murah. Otomatis (juga dikenal sebagai algoritmik) metode diferensiasi juga dapat digunakan dalam beberapa kasus untuk menghitung pada kira-kira 3 sampai 5 kali biaya evaluasi fungsi. $i = 1, \ldots, n$ $\mathrm{D}f$ $n$ $\mathrm{D}f$ $\mathrm{D}f$

Ada juga kekhawatiran numerik. Jelas, di komputer, kita tidak bisa mengambil batas skalar karena pergi ke nol, jadi ketika kita perkiraan , kita benar-benar memilih menjadi "kecil" dan menghitung $\mathrm{D}f$ $\varepsilon$

\begin{aligned} D f (x) e_{saya} \approx \frac{f (x + ε e_{saya}) - f (x)}{ε}, \end{aligned}

$\begin{align} \mathrm{D}f(x)e_{i} \approx \frac{f(x + \varepsilon e_{i}) - f(x)}{\varepsilon}, \end{align}$

di mana berarti perkiraan, dan kami harap ini perkiraan yang benar-benar bagus. Menghitung perkiraan ini dalam aritmatika floating point sulit karena jika Anda memilih terlalu besar, perkiraan Anda bisa buruk, tetapi jika Anda memilih terlalu kecil, mungkin ada kesalahan pembulatan yang signifikan. Efek-efek ini tercakup dalam artikel Wikipedia tentang diferensiasi numerik dalam detail yang dangkal; referensi yang lebih rinci dapat ditemukan dalam artikel. $\approx$ $\varepsilon$ $\varepsilon$

Jika kesalahan dalam Jacobian matriks tidak terlalu besar, Newton-Raphson iterasi akan bertemu. Untuk analisis teoretis terperinci, lihat Bab 25 tentang Keakuratan dan Stabilitas Algoritma Angka oleh Nick Higham , atau makalah dari Françoise Tisseur yang menjadi dasarnya . $\mathrm{D}f$

Perpustakaan umumnya menangani perincian algoritmik ini untuk Anda, dan biasanya, implementasi perpustakaan dari algoritma Newton-Raphson (atau varian-varian daripadanya) akan menyatu dengan cukup baik, tetapi seringkali, akan ada masalah yang menyebabkan beberapa masalah karena kekurangannya. atas. Dalam kasus skalar , saya akan menggunakan metode Brent , karena kekokohan dan tingkat konvergensi yang baik dalam praktiknya. $(n = 1)$

— Geoff Oxberry
sumber