Idealnya, Anda perlu memperbarui bobot dengan memeriksa semua sampel dalam dataset. Ini disebut sebagai Batch Gradient Descent . Tapi, sebagai no. contoh pelatihan meningkat, perhitungannya menjadi besar dan pelatihan akan sangat lambat. Dengan munculnya pembelajaran yang mendalam, ukuran pelatihan dalam jutaan dan perhitungan menggunakan semua contoh pelatihan sangat tidak praktis dan sangat lambat.
Di sinilah, dua teknik optimasi menjadi menonjol.
- Keturunan Gradien Mini-Batch
- Stochastic Gradient Descent (SGD)
Dalam mini-batch gradient descent, Anda menggunakan ukuran batch yang jauh lebih sedikit dari total no. contoh pelatihan dan perbarui bobot Anda setelah melewati contoh-contoh ini.
Dalam penurunan gradien stokastik, Anda memperbarui bobot setelah melewati setiap contoh pelatihan.
Datang ke keuntungan dan kerugian dari tiga metode yang kami diskusikan.
Keturunan gradien batch secara bertahap menyatu ke minimum global tetapi lambat dan membutuhkan daya komputasi yang besar.
Keturunan gradien stokastik menyatu dengan cepat tetapi tidak ke minimum global, ia menyatu di suatu tempat dekat dengan minimum global dan melayang di sekitar titik itu, tetapi tidak konvergen ke minimum global. Tetapi, titik konvergensi dalam penurunan gradien Stochastic cukup baik untuk semua tujuan praktis.
Mini-Batch gradient adalah trade-off kedua metode di atas. Tetapi, jika Anda memiliki implementasi vektor dari pembaruan bobot dan Anda
berlatih dengan pengaturan multi-inti atau mengirimkan pelatihan ke
beberapa mesin, ini adalah metode terbaik baik dalam hal waktu untuk pelatihan dan konvergensi ke minimum global.
Anda dapat merencanakan fungsi biaya, dengan no. iterasi untuk memahami perbedaan antara konvergensi di semua 3 jenis gradient descent.
Plot gradient descent plot jatuh dengan lancar dan lambat dan menjadi stabil dan mencapai minimum global.
Plot gradient descent gradient akan memiliki osilasi, akan jatuh dengan cepat tetapi melayang di sekitar minimum global.
Ini adalah beberapa blog di mana ada penjelasan rinci tentang keuntungan, kerugian dari masing-masing metode dan juga grafik tentang bagaimana perubahan fungsi biaya untuk ketiga metode dengan iterasi.
https://adventuresinmachinelearning.com/stochastic-gradient-descent/
https://machinelearningmastery.com/gentle-introduction-mini-batch-gradient-descent-configure-batch-size/