Dalam regresi linier, Anda sepatutnya:
y=f(β,X)=β0+β1x1+β2x2+…
Anda cocok β diberikan data pelatihan (X,Y)
Misalkan Anda menjatuhkan β0 dan sesuai dengan model, apakah kesalahan dalam pemasangan:
∑i(yi−f(β,Xi))2
lebih besar daripada jika Anda memasukkannya? Dalam semua (non-degenerate) kasus Anda dapat membuktikan bahwa kesalahannya akan sama atau lebih rendah (pada data pelatihan) saat Anda memasukkanβ0karena model bebas menggunakan parameter ini untuk mengurangi kesalahan jika ada dan membantu, dan akan menetapkannya ke nol jika tidak membantu. Selanjutnya, misalkan Anda menambahkan konstanta besar ke y (anggap output Anda perlu+10000 daripada di data pelatihan asli Anda), dan perbaiki model, lalu β0 jelas menjadi sangat penting.
Mungkin Anda mengacu pada model yang diatur ketika Anda mengatakan "ditekan". L1 dan L2 diatur, metode ini lebih suka untuk menjaga koefisien mendekati nol (dan Anda seharusnya sudah berarti dan varians menormalkan AndaXsebelumnya untuk membuat langkah ini masuk akal. Dalam regularisasi, Anda kemudian memiliki pilihan apakah akan memasukkan istilah intersep (sebaiknya kita juga memilih yang kecilβ0?). Sekali lagi, dalam kebanyakan kasus (semua kasus?), Anda lebih baik tidak mengaturβ0, karena tidak mungkin untuk mengurangi overfitting dan menyusut ruang fungsi yang dapat diwakili (dengan mengecualikan mereka yang tinggi β0) mengarah ke kesalahan yang lebih tinggi.
Catatan sisi: regresi logistik scikit mengatur intersep secara default. Adakah yang tahu mengapa: http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html ? Saya pikir itu bukan ide yang bagus .