Saat ini saya sedang mengerjakan implementasi Stochastic Gradient Descent,, SGD
untuk jaring saraf menggunakan back-propagation, dan sementara saya mengerti tujuannya, saya punya beberapa pertanyaan tentang bagaimana memilih nilai untuk tingkat pembelajaran.
- Apakah tingkat pembelajaran terkait dengan bentuk gradien kesalahan, karena menentukan tingkat keturunan?
- Jika demikian, bagaimana Anda menggunakan informasi ini untuk menginformasikan keputusan Anda tentang suatu nilai?
- Jika bukan nilai seperti apa yang harus saya pilih, dan bagaimana saya harus memilihnya?
- Sepertinya Anda ingin nilai-nilai kecil untuk menghindari overshooting, tetapi bagaimana Anda memilih satu sehingga Anda tidak terjebak dalam minimum lokal atau butuh waktu lama untuk turun?
- Apakah masuk akal untuk memiliki tingkat pembelajaran yang konstan, atau haruskah saya menggunakan beberapa metrik untuk mengubah nilainya ketika saya mendekati minimum dalam gradien?
Singkatnya: Bagaimana saya memilih tingkat pembelajaran untuk SGD?