Pro dan Kontra dari Smoothing spline

Saya punya pertanyaan umum. Baru-baru ini saya baru saja belajar Dasar Ekspansi dan Regularisasi. Ada beberapa teknik menarik termasuk: spline kubik, spline alami, b-spline dan spline smoothing .

Pertanyaannya adalah, apa kelebihan dan kekurangan (jika ada) dari smoothing spline dibandingkan dengan spline kubik dan alami "tipikal" di mana pengguna harus memilih simpul?

Yah, umumnya bodoh bertanya pada orang-orang metode mana yang lebih baik tanpa konteks masalah sebenarnya. Jadi saya hanya bertanya, berdasarkan pengalaman Anda, mana yang lebih baik?

Salah satu kelebihan yang bisa saya lihat adalah: teknik smoothing spline menghindari memilih simpul.

regression smoothing

— penpen926
sumber

Terminologi spline dapat membingungkan (setidaknya saya merasa begitu) sama persis dengan apa yang orang maksud ketika mereka menggunakan "kubik spline", misalnya, tergantung pada jenis spline kubik; kita dapat memiliki, misalnya, baik spline smoothing kubik dan spline regresi kubik (dihukum).

Apa yang saya sketsa di bawah ini diambil dari bagian 5.1.2 dan 5.2 dari Wood (2017).

Spline interpolasi mengatakan akan mengatur karena interpolasi pengamatan melalui fungsi yang terdiri dari bagian polinomial kubik yang digabungkan sedemikian sehingga spline kontinu ke turunan kedua. $g(x_i)$ $g(x_i) = y_i$ $y_i$

Spline smoothing kubik bertujuan untuk menyeimbangkan kesesuaian dengan data dengan menghasilkan fungsi yang halus; tujuannya bukan untuk menginterpolasi data yang muncul dalam interpolasi splines. Daripada mengatur , spline smoothing kubik bertindak sebagai parameter bebas untuk diestimasi sehingga meminimalkan (Wood, 2017) $g(x_i) = y_i$ $n$

\sum_{saya = 1}^{n} {y_{saya} - g (x_{saya})}^{2} + λ \int g^{''} (x)^{2} d x

$\sum_{i=1}^{n}\{y_i - g(x_i)\}^2 + \lambda \int g^{\prime\prime}(x)^2dx$

di mana bagian pertama adalah ukuran kecocokan dengan data, sedangkan bagian kedua adalah hukuman terhadap kerontokan (itu integral meringkas turunan kedua kuadrat dari spline sebagai ukuran kelengkungan atau kerenggangan, seberapa cepat kurva adalah mengubah kemiringan). Kita dapat menganggap kegoyahan sebagai kompleksitas sehingga fungsinya termasuk penalti terhadap smooth yang terlalu rumit.

Dapat ditunjukkan bahwa spline smoothing kubik , dari semua fungsi yang mungkin , adalah fungsi yang meminimalkan kriteria di atas (bukti diberikan dalam Wood, 2017, bagian 5.1.2 hal. 198). $g(x)$ $f$

Seperti halnya spline interpolasi, spline smoothing kubik memiliki simpul yang terletak pada setiap pasangan observasi , . Sebelumnya saya sebutkan bahwa smoothing spline memiliki parameter bebas; ada banyak parameter sebagai data. Namun efek , hukuman terhadap kelicikan yang berlebihan, adalah menghasilkan spline yang jauh lebih halus daripada yang tersirat jika digunakan derajat kebebasan (Wood 2017). $x_i$ $y_i$ $n$ $\lambda$ $n$

Ini adalah negatif utama pada sisi smoothing splines. Anda harus memperkirakan parameter sebanyak data Anda, namun efek dari banyak parameter tersebut secara umum akan rendah karena penalti terhadap kecocokan yang terlalu kompleks (goyah).

Menyeimbangkan ini adalah fakta bahwa pilihan simpul di spline smoothing diurus, karena tidak ada pilihan.

Pindah ke pengaturan spline regresi yang dihukum, kita sekarang memiliki pilihan di mana menempatkan simpul tetapi kita harus memilih berapa banyak simpul yang akan digunakan. Bagaimana kita dapat memutuskan apakah ini merupakan trade-off yang bermanfaat, yang bermanfaat agar sesuai dengan spline dengan berkurangnya jumlah simpul bahkan jika kita harus memutuskan berapa banyak dan di mana harus meletakkannya?

Dalam spline regresi yang dihukum, alih-alih memikirkan knot per se, pikirkan spline sebagai terdiri dari fungsi basis; ini adalah fungsi-fungsi kecil, yang masing-masing memiliki koefisien, yang kombinasi liniernya memberikan nilai spline untuk diberikan . Pilihannya sekarang adalah berapa banyak fungsi dasar yang digunakan untuk memodelkan respons dengan angka menjadi lebih sedikit daripada jumlah data . Teori yang mendasari pilihan ini sedikit terbatas atau terbatas pada kasus-kasus khusus atau pendekatan untuk memperkirakan nilai untuk tetapi gagasan umum adalah bahwa jumlah fungsi dasar yang diperlukan hanya tumbuh lambat dengan $x_i$ $k$ $n$ $\lambda$ $n$ untuk mencapai mendekati kinerja optimal yang diwakili oleh smoothing splines (dirangkum dari Wood 2017).

Secara umum, di mana simpul sebenarnya didistribusikan melalui data untuk spline regresi kubik tidak memiliki banyak efek pada spline dipasang. Pilihan umum adalah menempatkan knot secara merata pada interval , atau untuk menempatkan knot pada kuantil distribusi . Jika Anda memiliki penyebaran pengamatan yang sangat tidak merata pada rentang , akan sia-sia untuk menempatkan simpul secara merata di atas sehingga Anda dapat memusatkan mereka di mana Anda memiliki data. Sebagai alternatif, mentransformasikan dengan cara tertentu dapat meratakan distribusi sehingga menempatkan simpul secara merata dimungkinkan kembali. $k-1$ $x$ $x$ $x$ $x$ $x$

Ketika memasang model spline dalam dimensi tinggi, katakanlah spline dari dua variabel, penempatan simpul lebih bermasalah jika pasangan terbatas pada beberapa wilayah ruang yang direntang oleh dan ; jika data tidak berasal dari sebagian besar ruang, maka menempatkan simpul secara merata akan menghasilkan banyak simpul yang terletak jauh dari dukungan data. Yang boros. Strategi untuk menangani tersedia, seperti algoritma pengisian ruang, atau menggunakan P-splines dan hukuman berbasis derivatif yang memungkinkan estimasi yang efisien bahkan dalam data yang tidak terdistribusi secara merata (mis. Wood 2016) $x_{1i}, x_{2i}$ $x_1$ $x_2$

Referensi

Wood, SN 2016. P-splines dengan denda berbasis derivatif dan pemulusan produk tensor dari data yang didistribusikan tidak merata. Stat. Komputasi. 1–5. doi: 10.1007 / s11222-016-9666-x ( Akses Terbuka )

Wood, SN 2017. Generalized Additive Models: Pengantar dengan R, Edisi Kedua, CRC Press.

— Gavin Simpson
sumber

Pertanyaan tindak lanjut tentang pernyataan "spline smoothing memiliki 𝑛 parameter bebas; ada banyak parameter seperti data". Bagaimana jika saya memiliki dua variabel dalam model aditif, f (x1) dan f (x2), keduanya merapikan splines. Apakah ini berarti bahwa jumlah parameter untuk diestimasi adalah 2n?

— vtshen

Saya percaya ini harus lebih umum dinyatakan karena ada banyak parameter untuk diperkirakan sebagai kombinasi unik dari data. Jika dua atau lebih pengamatan telah mengambil nilai yang sama satu sama lain untuk dan , maka kita hanya perlu satu simpul untuk kombinasi data ini.

x_{1}

$x_1$

x_{2}

$x_2$

— Gavin Simpson