Regresi OLS dasar adalah teknik yang sangat baik untuk menyesuaikan fungsi dengan sekumpulan data. Namun, regresi sederhana hanya cocok dengan garis lurus yang konstan untuk seluruh rentang . Ini mungkin tidak sesuai untuk situasi tertentu. Misalnya, data terkadang menunjukkan hubungan yang melengkung . Hal ini dapat diatasi dengan cara mengembalikan Y ke transformasi X , f ( X ) . Transformasi yang berbeda dimungkinkan. Dalam situasi di mana hubungan antara X dan Y adalah monoton , tetapi terus berkurang, log berubahXYXf( X)XYdapat digunakan. Pilihan populer lainnya adalah menggunakan polinomial di mana istilah baru dibentuk dengan menaikkan ke serangkaian kekuatan (misalnya, X 2 , X 3 , dll.). Strategi ini mudah diterapkan, dan Anda dapat mengartikan kecocokan tersebut dengan memberi tahu Anda berapa banyak 'tikungan' yang ada di data Anda (di mana jumlah tikungan sama dengan daya tertinggi yang dibutuhkan minus 1). XX2X3
Namun, regresi berdasarkan logaritma atau eksponen kovariat akan cocok secara optimal hanya ketika itu adalah sifat yang tepat dari hubungan yang sebenarnya. Sangat masuk akal untuk membayangkan bahwa ada hubungan lengkung antara dan Y yang berbeda dari kemungkinan yang mampu dihasilkan oleh transformasi. Jadi, kita sampai pada dua strategi lain. Pendekatan pertama adalah loess , serangkaian regresi linier tertimbang yang dihitung pada jendela bergerak. Pendekatan ini lebih tua, dan lebih cocok untuk analisis data eksplorasi . XY
Pendekatan lain adalah dengan menggunakan splines. Di itu sederhana, spline adalah istilah baru yang berlaku untuk hanya sebagian dari berbagai . Misalnya, X dapat berkisar dari 0 hingga 1, dan istilah spline mungkin hanya berkisar dari 0,7 hingga 1. Dalam hal ini, 0,7 adalah simpulnya . Sebuah sederhana, istilah spline linear akan dihitung seperti ini:
X s p l i n e = { 0XX
Xs p l i n e= { 0X- .7jika X≤ .7jika X> .7
dan akan ditambahkan ke model Anda,
selain istilah
asli . Model pas akan menunjukkan penembusan tajam pada .7 dengan garis lurus dari 0 hingga .7, dan garis berlanjut dengan kemiringan berbeda dari .7 ke 1. Namun, suku spline tidak perlu linier. Secara khusus, telah ditentukan bahwa splines kubik sangat berguna (yaitu,
X 3 s p l i n eXX3s p l i n e). Istirahat yang tajam juga tidak perlu ada di sana. Algoritma telah dikembangkan yang membatasi parameter yang dipasang sedemikian rupa sehingga turunan pertama dan kedua cocok pada knot, yang membuat simpul tidak mungkin terdeteksi dalam output. Hasil akhir dari semua ini adalah bahwa dengan hanya beberapa simpul (biasanya 3-5) di lokasi pilihan (yang dapat ditentukan oleh perangkat lunak untuk Anda) dapat mereproduksi hampir
semuamelengkung. Selain itu, derajat kebebasan dihitung dengan benar, sehingga Anda dapat mempercayai hasilnya, yang tidak benar ketika Anda melihat data Anda terlebih dahulu dan kemudian memutuskan untuk mencocokkan istilah kuadrat karena Anda melihat tikungan. Selain itu, semua ini hanyalah versi lain (walaupun lebih rumit) dari model linear dasar. Dengan demikian, semua yang kita dapatkan dengan model linier disertai dengan ini (misalnya, prediksi, residu, pita kepercayaan, tes, dll.) Ini adalah keuntungan
besar .
Pengantar paling sederhana untuk topik-topik ini yang saya tahu adalah: