Saya tidak memiliki contoh atau tugas tertentu dalam pikiran. Saya baru menggunakan b-splines dan saya ingin mendapatkan pemahaman yang lebih baik tentang fungsi ini dalam konteks regresi.
Mari kita asumsikan bahwa kita ingin menilai hubungan antara variabel respon dan beberapa prediktor x 1 , x 2 , . . . , x p . Prediktor tersebut mencakup beberapa variabel numerik serta beberapa variabel kategorikal.
Katakanlah setelah memasang model regresi, salah satu variabel numerik misalkan adalah signifikan. Langkah logis setelahnya adalah menilai apakah polinomial orde tinggi misalnya: x 2 1 dan x 3 1 diperlukan untuk menjelaskan hubungan secara memadai tanpa overfitting.
Pertanyaan saya adalah:
Pada titik apa Anda memilih antara b-splines atau polinomial orde tinggi sederhana. misalnya dalam R:
y ~ poly(x1,3) + x2 + x3
vs.
y ~ bs(x1,3) + x2 + x3
Bagaimana Anda dapat menggunakan plot untuk menginformasikan pilihan Anda di antara keduanya dan apa yang terjadi jika plot tersebut tidak benar-benar jelas (misalnya: karena sejumlah besar titik data)
Bagaimana Anda menilai istilah interaksi dua arah antara dan katakanlah x 3
Bagaimana perubahan di atas untuk berbagai jenis model
Apakah Anda mempertimbangkan untuk tidak pernah menggunakan polinomial orde tinggi dan selalu menyesuaikan b-splines dan menghukum fleksibilitas tinggi?
mgcv
itu, mengapa tidak menggunakan model aditif (umum). Pemilihan kelancaran bersifat otomatis, dan metode inferensial dikembangkan dengan baik.