Seberapa berbeda spline kubik terbatas dan spline dihukum?

Saya banyak membaca tentang menggunakan splines dalam berbagai masalah regresi. Beberapa buku (misalnya Hodges Richly Parrameterized Linear Models ) merekomendasikan splines yang dikenakan sanksi. Yang lainnya (mis . Strategi Pemodelan Regresi Harrell ) memilih splines kubik terbatas.

Seberapa berbeda hal ini dalam praktiknya? Apakah Anda sering mendapatkan hasil yang berbeda secara substansial dari menggunakan satu atau yang lain? Apakah satu atau yang lain memiliki kelebihan tertentu?

regression splines

— Peter Flom
sumber

Dari bacaan saya, dua konsep yang Anda minta kami bandingkan adalah binatang yang sangat berbeda dan akan membutuhkan perbandingan seperti apel dan jeruk. Ini membuat banyak pertanyaan Anda agak diperdebatkan - idealnya (dengan asumsi orang dapat menuliskan hukuman kegelapan untuk dasar RCS dalam formulir yang diperlukan) Anda akan menggunakan model spline regresi kubik terbatas yang dihukum.

Splines Kubik Terbatas

Spline kubik terbatas (atau spline alami) adalah basis spline yang dibangun dari fungsi polinomial masing-masing yang bergabung dengan lancar di beberapa lokasi yang ditentukan sebelumnya, atau simpul. Yang membedakan spline kubik terbatas dari spline kubik adalah bahwa batasan tambahan dikenakan pada versi terbatas sehingga spline linier sebelum simpul pertama dan setelah simpul terakhir. Hal ini dilakukan untuk meningkatkan kinerja spline di ekor . $X$

Pemilihan model dengan RCS biasanya melibatkan pemilihan jumlah simpul dan lokasinya, dengan yang sebelumnya mengatur seberapa rumit atau kompleks spline yang dihasilkan. Kecuali jika beberapa langkah lebih lanjut dilakukan untuk mengatur koefisien yang diperkirakan saat pemasangan model, maka jumlah simpul secara langsung mengontrol kompleksitas spline.

Ini berarti bahwa pengguna memiliki beberapa masalah untuk diatasi ketika memperkirakan model yang mengandung satu atau lebih istilah RCS:

Berapa banyak simpul yang digunakan ?,
Di mana menempatkan simpul-simpul itu dalam rentang ?, $X$
Bagaimana membandingkan model dengan jumlah simpul yang berbeda?

Sendiri, persyaratan RCS memerlukan intervensi pengguna untuk menyelesaikan masalah ini.

Splines yang dihukum

Splines regresi yang dihukum (sensu Hodges) hanya pada masalah 3. mereka sendiri , tetapi mereka memungkinkan masalah 1. untuk dielakkan. Idenya di sini adalah bahwa serta perluasan basis , dan untuk sekarang mari kita asumsikan ini adalah basis spline kubik, Anda juga membuat matriks hukuman kegoyahan. Wiggliness diukur dengan menggunakan beberapa turunan dari perkiraan spline, dengan turunan khas digunakan sebagai turunan kedua, dan hukuman itu sendiri merupakan turunan kedua kuadrat terintegrasi selama rentang . Hukuman ini dapat ditulis dalam bentuk kuadratik sebagai $X$ $X$

β^{T} S β

$\boldsymbol{\beta}^{\mathsf{T}} \boldsymbol{S} \boldsymbol{\beta}$

di mana adalah matriks penalti dan adalah koefisien model. Kemudian nilai koefisien ditemukan untuk memaksimalkan kemungkinan log-likelihood _p $\boldsymbol{S}$ $\boldsymbol{\beta}$ $\mathcal{L}_p$

L_{p} = L - λ β^{T} S β

$\mathcal{L}_p = \mathcal{L} - \lambda \boldsymbol{\beta}^{\mathsf{T}} \boldsymbol{S} \boldsymbol{\beta}$

di mana adalah log-kemungkinan model dan adalah parameter kelancaran, yang mengontrol seberapa kuat untuk menghukum kegoyahan spline. $\mathcal{L}$ $\lambda$

Karena kemungkinan log yang dihukum dapat dievaluasi dalam hal koefisien model, pemasangan model ini secara efektif menjadi masalah dalam menemukan nilai optimal untuk sambil memperbarui koefisien selama pencarian untuk optimal tersebut . $\lambda$ $\lambda$

$\lambda$ dapat dipilih menggunakan validasi silang, validasi silang umum (GCV), atau kemungkinan marginal atau kriteria kemungkinan marginal terbatas. Dua yang terakhir secara efektif menyusun kembali model spline sebagai model efek campuran (bagian halus yang sempurna dari basis menjadi efek tetap dan bagian yang tidak rata dari basis adalah efek acak, dan parameter kelancaran berbanding terbalik dengan istilah varians untuk efek acak ), itulah yang sedang dipertimbangkan Hodges dalam bukunya.

Mengapa ini menyelesaikan masalah berapa banyak knot yang digunakan? Yah, itu hanya semacam itu. Ini menyelesaikan masalah tidak memerlukan simpul di setiap titik data unik (spline smoothing), tetapi Anda masih perlu memilih berapa banyak simpul atau fungsi dasar yang digunakan. Namun, karena penalti mengecilkan koefisien, Anda bisa lolos dengan memilih dimensi dasar sebesar yang Anda pikir diperlukan untuk mengandung fungsi sebenarnya atau perkiraan dekat untuk itu, dan kemudian Anda membiarkan penalti mengontrol bagaimana menggoyangkan perkiraan spline pada akhirnya adalah, dengan potensi kerontokan ekstra yang tersedia atas dasar dikeluarkan atau dikendalikan oleh penalti.

Perbandingan

Splines dihukum (regresi) dan RCS adalah konsep yang sangat berbeda. Tidak ada yang menghentikan Anda membuat basis RCS dan penalti terkait dalam bentuk kuadrat dan kemudian memperkirakan koefisien spline menggunakan ide-ide dari model spline regresi yang dihukum.

RCS hanyalah salah satu jenis dasar yang dapat Anda gunakan untuk membuat basis spline, dan splines regresi yang dihukum adalah salah satu cara untuk memperkirakan model yang berisi satu atau lebih spline dengan hukuman kegoyahan terkait.

Bisakah kita menghindari masalah 1., 2., dan 3.?

Ya, sampai batas tertentu, dengan dasar plat tipis (TPS). Dasar Sebuah TPS memiliki sebanyak fungsi dasar sebagai nilai-nilai data yang unik di . Apa yang Wood (2003) tunjukkan adalah bahwa Anda dapat membuat basis Thin Plate Regression Spline (TPRS) menggunakan komposisi eigend dari fungsi-fungsi dasar TPS, dan hanya mempertahankan kata terbesar pertama . Anda masih harus menentukan $X$ $k$ $k$ , jumlah fungsi dasar yang ingin Anda gunakan, tetapi pilihan umumnya didasarkan pada seberapa besar Anda mengharapkan fungsi yang sesuai dan berapa banyak hit komputasi yang bersedia Anda ambil. Tidak perlu menentukan lokasi simpul juga, dan penalti menyusutkan koefisien sehingga orang menghindari masalah pemilihan model karena Anda hanya memiliki satu model yang dihukum tidak banyak yang tidak dihukum dengan jumlah simpul yang berbeda.

P-splines

Hanya untuk membuat segalanya lebih rumit, ada jenis dasar spline yang dikenal sebagai P-spline (Eilers & Marx, 1996)), di mana sering ditafsirkan sebagai "dihukum". P-splines adalah basis B-spline dengan penalti perbedaan yang diterapkan langsung ke koefisien model. Dalam penggunaan tipikal P-spline penalti menghukum perbedaan kuadrat antara koefisien model yang berdekatan, yang pada gilirannya menghukum kegoyahan. P-splines sangat mudah diset-up dan menghasilkan matriks penalti jarang yang membuatnya sangat setuju dengan estimasi suku spline dalam model Bayesian berbasis MCMC (Wood, 2017). $P$

Referensi

Eilers, PHC, dan BD Marx. 1996. Penghalusan Fleksibel dengan -lapisan dan Denda. Stat. Sci.

Wood, SN 2003. Splines regresi pelat tipis. JR Stat. Soc. Seri B Stat. Methodol. 65: 95–114. doi: 10.1111 / 1467-9868.00374

Wood, SN 2017. Generalized Additive Models: Pengantar dengan R, Edisi Kedua, CRC Press.

— Gavin Simpson
sumber

+6, perawatan yang sangat baik. Ingatkan saya dalam beberapa hari, jika saya lupa, & saya akan memberi hadiah untuk ini.

— gung - Reinstate Monica

Terima kasih untuk ini!

— Peter Flom

Hadiahnya ??????

— kjetil b halvorsen