(Edit catatan: Saya mengatur ulang ini setelah panik panjangnya.)
Literatur tentang penurunan koordinat dapat sedikit sulit untuk dilacak. Inilah beberapa alasan untuk ini.
Banyak sifat yang diketahui dari metode koordinat ditangkap dalam teorema payung untuk metode keturunan yang lebih umum. Dua contoh dari ini, diberikan di bawah ini, adalah konvergensi cepat di bawah cembung yang kuat (berlaku untuk semualhal
Penamaan bukan standar. Bahkan istilah "keturunan paling curam" tidak standar. Anda mungkin berhasil googling salah satu istilah "keturunan koordinat siklik", "keturunan koordinat", "Gauss-Seidel", "Gauss-Southwell". penggunaannya tidak konsisten.
nn
O (ln( 1 / ϵ ) )lhal
Kendala. Tanpa cembung yang kuat, Anda harus mulai sedikit berhati-hati. Anda tidak mengatakan apa-apa tentang kendala, dan dengan demikian secara umum, infimum mungkin tidak dapat dicapai. Saya akan mengatakan secara singkat pada topik kendala bahwa pendekatan standar (dengan metode keturunan) adalah memproyeksikan ke kendala Anda mengatur setiap iterasi untuk mempertahankan kelayakan, atau menggunakan hambatan untuk menggulung kendala ke dalam fungsi tujuan Anda. Dalam kasus yang pertama, saya tidak tahu bagaimana cara bermain dengan keturunan koordinat; dalam kasus yang terakhir, ia bekerja dengan baik dengan penurunan koordinat, dan hambatan ini bisa sangat cembung.
Lebih khusus untuk mengoordinasikan metode, daripada memproyeksikan, banyak orang hanya membuat pembaruan koordinat mempertahankan kelayakan: ini misalnya persis dengan algoritma Frank-Wolfe dan variannya (yaitu, menggunakannya untuk menyelesaikan SDP).
Saya juga akan mencatat secara singkat bahwa algoritma SMO untuk SVM dapat dilihat sebagai metode penurunan koordinat, di mana Anda memperbarui dua variabel sekaligus, dan mempertahankan batasan kelayakan saat Anda melakukannya. Pilihan variabel bersifat heuristik dalam metode ini, sehingga jaminannya benar-benar hanya jaminan siklik. Saya tidak yakin apakah koneksi ini muncul dalam literatur standar; Saya belajar tentang metode SMO dari catatan mata kuliah Andrew Ng, dan ternyata cukup bersih.
n
O (ln( 1 / ϵ ) ) .
Ada beberapa hasil terbaru tentang penurunan koordinat, saya telah melihat hal-hal di arXiv. Juga, luo & tseng memiliki beberapa kertas baru. tapi ini hal utama.
∑mi = 1g( ⟨ Asaya, Λ ⟩ )g( asaya)m1λexp( 1 / ϵ2)O (1 / ϵ)
Masalah dengan pembaruan yang tepat. Juga, sangat sering terjadi bahwa Anda tidak memiliki pembaruan koordinat tunggal formulir tertutup. Atau solusi yang tepat mungkin tidak ada. Tetapi untungnya, ada banyak dan banyak metode pencarian garis yang pada dasarnya mendapatkan jaminan yang sama sebagai solusi tepat. Bahan ini dapat ditemukan dalam teks pemrograman nonlinier standar, misalnya dalam buku Bertsekas atau Nocedal & Wright yang disebutkan di atas.
Vis a vis paragraf kedua Anda: ketika ini bekerja dengan baik.
Pertama, banyak analisis yang disebutkan di atas untuk pekerjaan gradien untuk penurunan koordinat. Jadi mengapa tidak selalu menggunakan keturunan koordinat? Jawabannya adalah bahwa untuk banyak masalah di mana gradient descent dapat diterapkan, Anda juga dapat menggunakan metode Newton, di mana konvergensi superior dapat dibuktikan. Saya tidak tahu cara untuk mendapatkan keuntungan Newton dengan koordinat turun. Juga, biaya tinggi metode Newton dapat dikurangi dengan pembaruan Quasinewton (lihat misalnya LBFGS).
l0kkkkf