Saya mengambil kursus Andrew Ng "Pembelajaran Mesin" melalui Coursera beberapa bulan yang lalu, tidak memperhatikan sebagian besar matematika / derivasi dan bukannya berfokus pada implementasi dan kepraktisan. Sejak itu saya mulai kembali mempelajari beberapa teori yang mendasarinya, dan telah meninjau kembali beberapa kuliah Prof. Ng. Saya membaca ceramahnya tentang "Reguler Linear Regression", dan melihat bahwa ia memberikan fungsi biaya sebagai berikut:
Kemudian, ia memberikan gradien berikut untuk fungsi biaya ini:
Saya sedikit bingung tentang bagaimana dia mendapat dari satu ke yang lain. Ketika saya mencoba melakukan derivasi sendiri, saya mendapatkan hasil sebagai berikut:
Perbedaannya adalah tanda 'plus' antara fungsi biaya asli dan parameter regularisasi dalam rumus Prof. Ng berubah menjadi tanda 'minus' dalam fungsi gradiennya, sedangkan itu tidak terjadi pada hasil saya.
Secara intuitif saya mengerti mengapa itu negatif: kita mengurangi parameter theta oleh angka gradien, dan kami ingin parameter regularisasi mengurangi jumlah parameter yang kami ubah untuk menghindari overfitting. Saya hanya sedikit terjebak pada kalkulus yang mendukung intuisi ini.
FYI, Anda dapat menemukan dek di sini , pada slide 15 dan 16.