Tidak ada jaminan bahwa memiliki bobot yang lebih kecil sebenarnya lebih baik. Lasso dan ridge regression bekerja dengan memaksakan pengetahuan / asumsi / kendala sebelumnya pada solusi. Pendekatan ini akan bekerja dengan baik jika sebelumnya / asumsi / kendala cocok dengan distribusi aktual yang menghasilkan data, dan mungkin tidak berfungsi dengan baik jika tidak. Mengenai kesederhanaan / kompleksitas, itu bukan model individual yang lebih sederhana atau lebih kompleks. Sebaliknya, itu adalah keluarga model yang dipertimbangkan.
Dari perspektif geometris, laso dan regresi ridge memberlakukan batasan pada bobot. Misalnya, hukuman umum / bentuk Lagrangian dari regresi ridge:
minβ∥ y- Xβ∥22+ λ ∥ β∥22
dapat ditulis ulang dalam bentuk kendala yang setara:
minβ∥ y- Xβ∥22st ∥ β∥22≤ c
Ini memperjelas bahwa regresi ridge membatasi bobot untuk berada di dalam hypersphere yang radiusnya diatur oleh parameter regularisasi. Demikian pula, laso membatasi bobot untuk berada dalam polytope yang ukurannya diatur oleh parameter regularisasi. Batasan ini berarti bahwa sebagian besar ruang parameter asli berada di luar batas, dan kami mencari bobot optimal dalam ruang bagian yang jauh lebih kecil. Subruang yang lebih kecil ini dapat dianggap kurang 'kompleks' daripada ruang penuh.
Dari perspektif Bayesian, orang dapat berpikir tentang distribusi posterior atas semua pilihan bobot. Baik laso dan regresi ridge sama dengan estimasi MAP setelah menempatkan prior pada bobot (laso menggunakan Laplacian prior dan regresi ridge menggunakan Gaussian prior). Posterior yang lebih sempit berhubungan dengan pembatasan yang lebih besar dan kompleksitas yang lebih sedikit, karena kepadatan posterior yang tinggi diberikan kepada set parameter yang lebih kecil. Misalnya, mengalikan fungsi kemungkinan dengan prior Gaussian yang sempit (yang sesuai dengan penalti punggungan besar) menghasilkan posterior yang lebih sempit.
Salah satu alasan utama untuk memaksakan kendala / prioritas adalah bahwa memilih model yang optimal dari keluarga yang lebih terbatas lebih kecil kemungkinannya untuk mengenakan pakaian daripada memilihnya dari keluarga yang tidak terlalu terbatas. Ini karena keluarga yang tidak terlalu terbatas memberikan cara 'lebih' untuk menyesuaikan data, dan semakin besar kemungkinan salah satu dari mereka akan dapat menyesuaikan fluktuasi acak dalam rangkaian pelatihan. Untuk perawatan yang lebih formal, lihat tradeoff bias-varians . Ini tidak berarti bahwa memilih model dari keluarga yang lebih terbatas akan bekerja dengan baik. Untuk mendapatkan kinerja yang baik mengharuskan keluarga terbatas benar-benar berisi model yang baik. Ini berarti kita harus memilih prior / constraint yang cocok dengan masalah spesifik yang dihadapi.