Bagaimana seseorang dapat menentukan tingkat pembelajaran optimal untuk gradient descent? Saya berpikir bahwa saya dapat secara otomatis menyesuaikannya jika fungsi biaya mengembalikan nilai yang lebih besar daripada pada iterasi sebelumnya (algoritme tidak akan menyatu), tetapi saya tidak begitu yakin apa nilai baru yang harus diambil.