Dalam regresi linier, mengapa regularisasi juga menghukum nilai parameter?

Saat ini sedang belajar regresi ridge dan saya agak bingung tentang hukuman model yang lebih kompleks (atau definisi model yang lebih kompleks).

Dari apa yang saya mengerti, kompleksitas model tidak selalu berkorelasi dengan urutan polinomial. Jadi: adalah model yang lebih kompleks daripada:

2 + 3 + 4 x^{2} + 5 x^{3} + 6 x^{4}

$2 + 3+ 4x^2 + 5x^3 + 6x^4$

5 x^{5}

$5x^5$

Dan saya tahu bahwa titik regularisasi adalah untuk menjaga kompleksitas model tetap rendah, jadi katakanlah misalnya kita memiliki polinomial orde 5

f (x; w) = w_{0} + w_{1} x + w_{2} x^{2} + w_{3} x^{3} + w_{4} x^{4} + w_{5} x^{5}

$f(x; w) = w_0 + w_1x + w_2x^2 + w_3x^3 + w_4x^4 + w_5x^5$

Semakin banyak parameter yang 0 semakin baik.

Tapi yang tidak saya mengerti adalah, jika itu adalah polinomial orde yang sama, mengapa nilai parameter yang lebih rendah mendapatkan lebih sedikit penalti? Jadi mengapa harus:

2 + 5 x + x^{3}

$2 + 5x + x^3$ menjadi model yang kurang kompleks daripada

433 + 342 x + 323 x^{3}

$433+ 342x + 323x^3$ keduanya memiliki urutan polinomial yang sama, dan nilai parameter hanya bergantung pada data.

Terima kasih!

regression regularization hyperparameter

— Physco111
sumber

nilai parameter hanya tergantung pada data

Ini adalah bagian penting dari pertanyaan Anda. Di sinilah Anda bingung.

Ya, nilai parameter tergantung pada data. Tetapi data tetap ketika kita cocok dengan model. Dengan kata lain, kami cocok dengan model yang tergantung pada pengamatan . Tidak masuk akal untuk membandingkan kompleksitas model yang berbeda yang dipasang pada kumpulan data yang berbeda .

Dan dalam konteks dataset tetap, model

2 + 5 x + x^{3}

$2 + 5x + x^3$

memang lebih dekat ke model paling sederhana yang mungkin, yaitu model nol datar, daripada

433 + 342 x + 323 x^{3},

$433+ 342x + 323x^3,$

dan ini berlaku terlepas dari skala pengamatan Anda.

Secara kebetulan, intersep ( dan dalam contoh Anda) sering tidak dihukum, misalnya, di sebagian besar formulasi Lasso, karena kami biasanya baik membiarkannya bervariasi secara bebas untuk menangkap rata-rata keseluruhan pengamatan. Dengan kata lain, kami mengecilkan model ke arah rata-rata pengamatan, bukan model nol lengkap (di mana nol akan sering berubah-ubah). Dalam pengertian ini, model flat dan flat akan dianggap sama rumitnya. $2$ $433$ $2$ $433$

— Stephan Kolassa
sumber

Koefisien magnitudo yang lebih rendah lebih jauh dari nol rata daripada koefisien yang lebih tinggi? Apakah itu salah ketik, atau saya salah paham mengapa model yang lebih jauh-dari-konstan tidak dihukum seperti model yang lebih dekat ke konstan?

— RM

Maaf, itu memang salah ketik. Biarkan saya mengedit. Terima kasih telah menunjukkan ini!

— Stephan Kolassa