Saya sedang mengerjakan model biaya prediksi di mana usia pasien (kuantitas bilangan bulat yang diukur dalam tahun) adalah salah satu variabel prediktor. Hubungan nonlinear yang kuat antara usia dan risiko rawat inap jelas:
Saya sedang mempertimbangkan penghalusan regresi penghalusan hukuman untuk usia pasien. Menurut The Elements of Statistics Learning (Hastie et al, 2009, hal.151), penempatan simpul yang optimal adalah satu simpul per nilai unik dari usia anggota.
Mengingat bahwa saya mempertahankan usia sebagai bilangan bulat, apakah spline penghalusan setara dengan menjalankan regresi ridge atau laso dengan 101 variabel indikator usia yang berbeda, satu nilai per usia ditemukan dalam dataset (minus satu untuk referensi)? Parameterisasi berlebihan kemudian dihindari karena koefisien pada setiap indikator usia menyusut mendekati nol.