Saya mencoba memahami optimasi gradient descent dalam algoritma ML (pembelajaran mesin). Saya mengerti bahwa ada fungsi biaya — di mana tujuannya adalah untuk meminimalkan kesalahan . Dalam skenario di mana bobot sedang dioptimalkan untuk memberikan kesalahan minimum, dan turunan parsial digunakan, apakah itu mengubah dan di setiap langkah atau merupakan kombinasi (misalnya, dalam beberapa iterasi hanya yang diubah dan ketika tidak mengurangi kesalahan lagi, turunannya dimulai dengan )? Aplikasi dapat berupa model regresi linier, model regresi logistik, atau meningkatkan algoritma.
w1
, penurunanw2
berdasarkan arah dari turunan parsial untuk mencapai minimum lokal dan hanya untuk mengkonfirmasi algoritma tidak akan selalu memberikan global minimum selalu?