Alasan untuk tidak menyusut istilah bias (intersep) dalam regresi

21

Untuk model linier , istilah susutnya selalu . $y=\beta_0+x\beta+\varepsilon$ $P(\beta)$

Apa alasannya mengapa kami tidak mengecilkan bias (intersep) istilah ? Haruskah kita mengecilkan istilah bias dalam model jaringan saraf? $\beta_0$

— yliueagle
sumber

Perpustakaan liblinear untuk regresi logistik seperti yang digunakan dalam scikit-belajar menghukum istilah bias (saya pikir ini adalah artefak implementasi, bias ditangani sebagai variabel input tambahan)

— seanv507

33

Elemen Pembelajaran Statistik oleh Hastie et al. mendefinisikan regresi ridge sebagai berikut (Bagian 3.4.1, persamaan 3.41): yaitu secara eksplisit mengecualikan istilah intersepsi dari penalti ridge.

\hat{β}^{r i d g e} = \underset{β}{a r g m i n} {\sum_{i = 1}^{N} (y_{i} - β_{0} - \sum_{j = 1}^{p} x_{i j} β_{j})^{2} + λ \sum_{j = 1}^{p} β_{j}^{2}},

$\hat \beta{}^\mathrm{ridge} = \underset{\beta}{\mathrm{argmin}}\left\{\sum_{i=1}^N(y_i - \beta_0 - \sum_{j=1}^p x_{ij}\beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2\right\},$

β_{0}

$\beta_0$

Kemudian mereka menulis:

[...] perhatikan bahwa intersep telah dari hukuman. Hukuman mencegat akan membuat prosedur tergantung pada asal yang dipilih untuk ; artinya, menambahkan konstanta untuk masing-masing target tidak akan sekadar menghasilkan pergeseran prediksi dengan jumlah yang sama . $\beta_0$ $Y$ $c$ $y_i$ $c$

Memang, di hadapan istilah intersep, menambahkan ke semua hanya akan menyebabkan meningkat dengan juga dan sesuai semua nilai yang diprediksi juga akan meningkat sebesar . Ini tidak benar jika intersep dihukum: harus meningkat kurang dari . $c$ $y_i$ $\beta_0$ $c$ $\hat y_i$ $c$ $\beta_0$ $c$

Faktanya, ada beberapa properti regresi linier yang bagus dan nyaman yang bergantung pada adanya istilah intersep yang tepat (belum dilap). Misalnya nilai rata-rata dan nilai rata-rata sama, dan (akibatnya) koefisien korelasi berganda kuadrat sama dengan koefisien determinasi : lihat misalnya utas ini untuk sebuah penjelasan: Interpretasi geometris dari koefisien korelasi berganda dan koefisien determinasi . $y_i$ $\hat y_i$ $R$ $R^2$

(R)^{2} = \cos^{2} (\hat{y}, y) = \frac{‖ \hat{y} ‖^{2}}{‖ y ‖^{2}} = R^{2},

$(R)^2 = \cos^2(\hat {\mathbf y}, \mathbf y) = \frac{\|\hat{\mathbf y}\|^2}{\|\mathbf y\|^2} = R^2,$

R

$R$

R^{2}

$R^2$

Menghukum intersep akan menyebabkan semua itu tidak benar lagi.

— amuba kata Reinstate Monica
sumber

2

Ingat tujuan penyusutan atau regularisasi. Hal ini untuk mencegah algoritma pembelajaran untuk menyesuaikan data pelatihan atau setara - mencegah mengambil nilai parameter besar secara sewenang-wenang. Ini lebih cenderung untuk kumpulan data dengan lebih dari beberapa contoh pelatihan di hadapan kebisingan (diskusi yang sangat menarik tentang keberadaan kebisingan dan dampaknya dibahas dalam "Belajar dari Data" oleh Yaser Abu-Mustafa). Sebuah model yang dipelajari pada data bising tanpa regularisasi kemungkinan akan berkinerja buruk pada beberapa titik data yang tidak terlihat.

Dengan mengingat hal ini, bayangkan Anda memiliki titik data 2D yang ingin Anda klasifikasikan dalam dua kelas. Setelah semua kecuali parameter bias diperbaiki, memvariasikan istilah bias hanya akan memindahkan batas ke atas atau ke bawah. Anda dapat menggeneralisasi ini ke ruang dimensi yang lebih tinggi.

Algoritma pembelajaran tidak dapat menempatkan nilai besar secara sewenang-wenang untuk jangka waktu bias karena hal ini akan menghasilkan nilai kerugian bruto (model tidak akan cocok dengan data pelatihan). Dengan kata lain, mengingat beberapa set pelatihan, Anda (atau algoritma pembelajaran) tidak dapat memindahkan pesawat secara sewenang-wenang jauh dari yang sebenarnya.

Jadi, tidak ada alasan untuk mengecilkan istilah bias, algoritma pembelajaran akan menemukan yang bagus tanpa risiko overfitting.

Catatan terakhir: Saya melihat di beberapa makalah bahwa ketika bekerja di ruang dimensi tinggi untuk klasifikasi, tidak ada kebutuhan ketat untuk memodelkan istilah bias. Ini mungkin bekerja untuk data yang dapat dipisahkan secara linear karena dengan lebih banyak dimensi yang ditambahkan, ada lebih banyak kemungkinan untuk memisahkan kedua kelas.

— Vladislavs Dovgalecs
sumber

Bisakah Anda memberikan referensi untuk beberapa makalah yang mengatakan "ketika bekerja di ruang dimensi tinggi untuk klasifikasi, tidak ada kebutuhan ketat untuk memodelkan istilah bias"?

— chandresh

1

Istilah intersep sama sekali tidak kebal terhadap penyusutan. Formulasi umum "susut" (yaitu regularisasi) menempatkan istilah regularisasi dalam fungsi kerugian, misalnya:

$RSS(\beta) = \|y_i - X_i \beta \|^2$

$RegularizedLoss(\beta) = RSS(\beta) - \lambda f(\beta)$

Di mana biasanya terkait dengan norma lebesgue, dan adalah skalar yang mengontrol berapa banyak berat yang kita berikan pada istilah susut. $f(\beta)$ $\lambda$

Dengan meletakkan istilah susut pada fungsi kerugian seperti ini, ia memiliki efek pada semua koefisien dalam model. Saya menduga bahwa pertanyaan Anda muncul dari kebingungan tentang notasi di mana (dalam ) adalah vektor dari semua koefisien, termasuk . Model linier Anda mungkin akan lebih baik ditulis sebagai mana adalah "matriks desain," yang saya maksud adalah data Anda dengan kolom ditambahkan ke sisi kiri (untuk mengambil intersep ). $\beta$ $P(\beta)$ $\beta_0$ $y = X \beta + \epsilon$ $X$ $1's$

Sekarang, saya tidak dapat berbicara dengan regularisasi untuk jaringan saraf. Mungkin untuk jaringan saraf Anda ingin menghindari penyusutan istilah bias atau merancang fungsi kerugian yang diatur secara berbeda dari formulasi yang saya jelaskan di atas. Saya tidak tahu. Tapi saya sangat curiga bahwa bobot dan istilah bias diatur bersama.

— David Marx
sumber

2

Itu tergantung pada konvensi, tetapi misalnya Elemen Pembelajaran Statistik oleh Hastie et al. mendefinisikan regresi ridge sehingga intersep tidak dihukum (lihat jawaban saya). Saya menduga ini mungkin lebih standar daripada yang lainnya.

— Amoeba berkata Reinstate Monica

1

Saya tidak yakin jawaban David Marx di atas benar; menurut Andrew Ng, dengan konvensi, bias / intersep koefisien biasanya tidak diatur dalam regresi linier, dan dalam hal apapun apakah itu diatur atau tidak tidak membuat perbedaan yang signifikan.

— xenocyon
sumber

1

Saya akan memberikan penjelasan paling sederhana, lalu berkembang.

y_{t} = ε_{t}

$y_t=\varepsilon_t$

E [ε_{t}] = E [y_{t}] \neq 0

$E[\varepsilon_t]=E[y_t]\ne 0$

$\beta$

$\beta$ $\beta_0$

y_{t} = β_{0} + ε_{t}

$y_t=\beta_0+\varepsilon_t$

E [y_{t}] = β_{0} + E [ε_{t}]

$E[y_t]=\beta_0+E[\varepsilon_t]$

E [ε_{t}] = 0

$E[\varepsilon_t]=0$

β_{0} = μ = E [y_{t}]

$\beta_0=\mu=E[y_t]$

Model ini tidak seseksi model aslinya, ini sebenarnya konyol. Namun, itu adalah model yang sah. Anda bisa menjalankan ANOVA di atasnya, misalnya.

$\beta_0=E[y_t]$

— Aksakal
sumber