Saya baru mengenal ML. Saya diberitahu bahwa L2-normalisasi regresi ridge tidak menghukum intersepsi . Seperti dalam fungsi biaya: Istilah normalisasi L2 \ lambda \ sum_ { j = 1} ^ {n} {\ theta_ {j} ^ {2}} hanya jumlah dari j = 1 ke n , bukan dari j = 0 ke n . Saya juga membaca itu:
dalam kebanyakan kasus (semua kasus?), Anda lebih baik tidak mengatur , karena itu tidak mungkin untuk mengurangi overfitting dan menyusut ruang fungsi yang dapat diwakili
yang berasal dari jawaban terakhir dari user48956 dari Mengapa model regresi linear mencegat nol memprediksi lebih baik daripada model dengan mencegat?
Saya bingung bagaimana menyelesaikan turunan dari fungsi biaya, karena:
dan berbeda. Karena itu mereka tidak dapat dicampur dari sudut pandang saya. Dan turunannya adalah tentang, yang berisi . Setelah googling dan melihat pertanyaan di forum ini, masih belum ada cara bagi saya untuk mendapatkan solusinya: Adakah yang bisa memberi saya petunjuk? Terima kasih sebelumnya atas bantuan Anda!
Namun, saya pikir ada dua perbaikan cepat untuk masalah ini:
Pertama-tama, kita tidak menambahkan kolom semua 1 ke . Yaitu . Artinya kita tidak memasukkan intersep sama sekali dalam model: Saya percaya metode ini diadopsi dalam buku klasik Machine Learning in Action oleh Peter Harrington yang saat ini saya baca. Dalam penerapan regresi ridge (P166 dan P177 jika Anda juga memiliki buku), semua dilewatkan ke regresi ridge tidak memiliki semua 1 kolom.
Kedua, intersep juga dihukum dalam kenyataan.
Regresi logistik scikit mengatur pengaturan intersepsi secara default.
yang sekali lagi datang dari jawaban terakhir dari user48956 dari Mengapa model regresi linear mencegat nol memprediksi lebih baik daripada model dengan mencegat?
Kedua perbaikan cepat ini mengarah ke solusi
Jadi bisakah turunan L2-normalisasi regresi ridge benar-benar diselesaikan atau hanya diselesaikan dengan perbaikan cepat?