Terminologi spline dapat membingungkan (setidaknya saya merasa begitu) sama persis dengan apa yang orang maksud ketika mereka menggunakan "kubik spline", misalnya, tergantung pada jenis spline kubik; kita dapat memiliki, misalnya, baik spline smoothing kubik dan spline regresi kubik (dihukum).
Apa yang saya sketsa di bawah ini diambil dari bagian 5.1.2 dan 5.2 dari Wood (2017).
Spline interpolasi mengatakan akan mengatur karena interpolasi pengamatan melalui fungsi yang terdiri dari bagian polinomial kubik yang digabungkan sedemikian sehingga spline kontinu ke turunan kedua.g(xsaya)g(xsaya) =ysayaysaya
Spline smoothing kubik bertujuan untuk menyeimbangkan kesesuaian dengan data dengan menghasilkan fungsi yang halus; tujuannya bukan untuk menginterpolasi data yang muncul dalam interpolasi splines. Daripada mengatur , spline smoothing kubik bertindak sebagai parameter bebas untuk diestimasi sehingga meminimalkan (Wood, 2017)g(xsaya) =ysayan
∑i = 1n{ysaya- g(xsaya)}2+ λ ∫g′ ′( x)2dx
di mana bagian pertama adalah ukuran kecocokan dengan data, sedangkan bagian kedua adalah hukuman terhadap kerontokan (itu integral meringkas turunan kedua kuadrat dari spline sebagai ukuran kelengkungan atau kerenggangan, seberapa cepat kurva adalah mengubah kemiringan). Kita dapat menganggap kegoyahan sebagai kompleksitas sehingga fungsinya termasuk penalti terhadap smooth yang terlalu rumit.
Dapat ditunjukkan bahwa spline smoothing kubik , dari semua fungsi yang mungkin , adalah fungsi yang meminimalkan kriteria di atas (bukti diberikan dalam Wood, 2017, bagian 5.1.2 hal. 198).g( x )f
Seperti halnya spline interpolasi, spline smoothing kubik memiliki simpul yang terletak pada setiap pasangan observasi , . Sebelumnya saya sebutkan bahwa smoothing spline memiliki parameter bebas; ada banyak parameter sebagai data. Namun efek , hukuman terhadap kelicikan yang berlebihan, adalah menghasilkan spline yang jauh lebih halus daripada yang tersirat jika digunakan derajat kebebasan (Wood 2017).xsayaysayanλn
Ini adalah negatif utama pada sisi smoothing splines. Anda harus memperkirakan parameter sebanyak data Anda, namun efek dari banyak parameter tersebut secara umum akan rendah karena penalti terhadap kecocokan yang terlalu kompleks (goyah).
Menyeimbangkan ini adalah fakta bahwa pilihan simpul di spline smoothing diurus, karena tidak ada pilihan.
Pindah ke pengaturan spline regresi yang dihukum, kita sekarang memiliki pilihan di mana menempatkan simpul tetapi kita harus memilih berapa banyak simpul yang akan digunakan. Bagaimana kita dapat memutuskan apakah ini merupakan trade-off yang bermanfaat, yang bermanfaat agar sesuai dengan spline dengan berkurangnya jumlah simpul bahkan jika kita harus memutuskan berapa banyak dan di mana harus meletakkannya?
Dalam spline regresi yang dihukum, alih-alih memikirkan knot per se, pikirkan spline sebagai terdiri dari fungsi basis; ini adalah fungsi-fungsi kecil, yang masing-masing memiliki koefisien, yang kombinasi liniernya memberikan nilai spline untuk diberikan . Pilihannya sekarang adalah berapa banyak fungsi dasar yang digunakan untuk memodelkan respons dengan angka menjadi lebih sedikit daripada jumlah data . Teori yang mendasari pilihan ini sedikit terbatas atau terbatas pada kasus-kasus khusus atau pendekatan untuk memperkirakan nilai untuk tetapi gagasan umum adalah bahwa jumlah fungsi dasar yang diperlukan hanya tumbuh lambat denganxsayaknλn untuk mencapai mendekati kinerja optimal yang diwakili oleh smoothing splines (dirangkum dari Wood 2017).
Secara umum, di mana simpul sebenarnya didistribusikan melalui data untuk spline regresi kubik tidak memiliki banyak efek pada spline dipasang. Pilihan umum adalah menempatkan knot secara merata pada interval , atau untuk menempatkan knot pada kuantil distribusi . Jika Anda memiliki penyebaran pengamatan yang sangat tidak merata pada rentang , akan sia-sia untuk menempatkan simpul secara merata di atas sehingga Anda dapat memusatkan mereka di mana Anda memiliki data. Sebagai alternatif, mentransformasikan dengan cara tertentu dapat meratakan distribusi sehingga menempatkan simpul secara merata dimungkinkan kembali.k - 1xxxxx
Ketika memasang model spline dalam dimensi tinggi, katakanlah spline dari dua variabel, penempatan simpul lebih bermasalah jika pasangan terbatas pada beberapa wilayah ruang yang direntang oleh dan ; jika data tidak berasal dari sebagian besar ruang, maka menempatkan simpul secara merata akan menghasilkan banyak simpul yang terletak jauh dari dukungan data. Yang boros. Strategi untuk menangani tersedia, seperti algoritma pengisian ruang, atau menggunakan P-splines dan hukuman berbasis derivatif yang memungkinkan estimasi yang efisien bahkan dalam data yang tidak terdistribusi secara merata (mis. Wood 2016)x1 i,x2 ix1x2
Referensi
Wood, SN 2016. P-splines dengan denda berbasis derivatif dan pemulusan produk tensor dari data yang didistribusikan tidak merata. Stat. Komputasi. 1–5. doi: 10.1007 / s11222-016-9666-x ( Akses Terbuka )
Wood, SN 2017. Generalized Additive Models: Pengantar dengan R, Edisi Kedua, CRC Press.