Misalkan Anda memiliki dua variabel prediktor yang sangat berkorelasi , dan anggap keduanya berpusat dan diskalakan (berarti nol, varians satu). Maka penalti ridge pada vektor parameter adalah β 2 1 + β 2 2 sedangkan istilah penalti laso adalah ∣ β 1 ∣ + ∣ β 2 ∣ . Sekarang, karena modelnya dianggap sangat kolinear, sehingga x dan z lebih atau kurang dapat saling menggantikan dalam memprediksi Y , begitu banyak kombinasi linear dari x , z di mana kita cukup mensubstitusi sebagianx,zβ21+β22∣β1∣+∣β2∣xzYx,z untuk z , akan bekerja sangat mirip dengan prediktor, misalnya 0,2 x + 0,8 x , 0,3 x + 0,7 z atau 0,5 x + 0,5 zxz0.2x+0.8x,0.3x+0.7z0.5x+0.5zakan sama baiknya dengan prediksi. Sekarang lihat tiga contoh ini, penalti laso dalam ketiga kasus adalah sama, yaitu 1, sedangkan penalti ridge berbeda, masing-masing 0,68, 0,58, 0,5, sehingga penalti ridge akan lebih menyukai bobot variabel colinear yang sama sedangkan penalti laso tidak akan dapat memilih. Ini adalah salah satu alasan ridge (atau lebih umum, jaring elastis, yang merupakan kombinasi linear dari penalti laso dan ridge) akan bekerja lebih baik dengan prediktor colinear: Ketika data memberikan sedikit alasan untuk memilih antara kombinasi linear yang berbeda dari prediktor colinear, laso hanya akan "berkeliaran" sementara punggung bukit cenderung memilih bobot yang sama. Yang terakhir mungkin merupakan tebakan yang lebih baik untuk digunakan dengan data masa depan! Dan, jika demikian halnya dengan data saat ini, dapat muncul dalam validasi silang sebagai hasil yang lebih baik dengan ridge.
Kita dapat melihat ini dengan cara bayesian: Ridge dan laso menyiratkan informasi sebelumnya berbeda, dan informasi sebelumnya yang tersirat oleh punggungan cenderung lebih masuk akal dalam situasi seperti itu. (Penjelasan di sini saya belajar, kurang lebih, dari buku: "Pembelajaran Statistik dengan Sparsity The Lasso and Generalisasi" oleh Trevor Hastie, Robert Tibshirani dan Martin Wainwright, tetapi pada saat ini saya tidak dapat menemukan kutipan langsung).