Cara output dari pendekatan ini untuk pemasangan GAM terstruktur adalah dengan mengelompokkan bagian linier dari smoothers dengan istilah parametrik lainnya. Pemberitahuan Private
memiliki entri di tabel pertama tetapi entri itu kosong di yang kedua. Ini karena Private
ini adalah istilah yang sangat parametrik; itu adalah variabel faktor dan karenanya dikaitkan dengan parameter estimasi yang mewakili efek Private
. Alasan kelancaran dipisahkan menjadi dua jenis efek adalah bahwa keluaran ini memungkinkan Anda untuk memutuskan apakah kelancaran memiliki
- efek nonlinear : lihat tabel nonparametrik dan nilai signifikansi. Jika signifikansi, biarkan sebagai efek nonlinear halus. Jika tidak signifikan, pertimbangkan efek linier (2. di bawah)
- a linear effect : lihat tabel parametrik dan nilai signifikansi dari efek linear. Jika signifikan, Anda dapat mengubah istilah menjadi halus
s(x)
-> x
dalam rumus yang menggambarkan model. Jika tidak signifikan, Anda mungkin mempertimbangkan untuk menjatuhkan istilah dari model sepenuhnya (tapi hati-hati dengan ini --- itu berarti pernyataan yang kuat bahwa efek sebenarnya adalah == 0).
Tabel parametrik
Entri di sini seperti apa yang akan Anda dapatkan jika Anda memasang ini model linear dan menghitung tabel ANOVA, kecuali tidak ada perkiraan untuk koefisien model terkait yang ditampilkan. Alih-alih perkiraan koefisien dan kesalahan standar, dan terkait t atau uji Wald, jumlah varians dijelaskan (dalam hal jumlah kuadrat) ditampilkan bersama uji F. Seperti halnya model regresi lain yang dilengkapi dengan banyak kovariat (atau fungsi kovariat), entri dalam tabel tergantung pada syarat / fungsi lain dalam model.
Tabel nonparametrik
The nonparametrik efek berhubungan dengan bagian nonlinier dari smoothers dipasang. Efek nonlinier ini tidak signifikan kecuali untuk efek nonlinier Expend
. Ada beberapa bukti efek nonlinear Room.Board
. Masing-masing dikaitkan dengan sejumlah derajat kebebasan non-parametrik ( Npar Df
) dan mereka menjelaskan sejumlah variasi dalam respons, jumlah yang dinilai melalui uji F (secara default, lihat argumen test
).
Tes-tes ini di bagian nonparametrik dapat ditafsirkan sebagai tes hipotesis nol dari hubungan linier, bukan hubungan nonlinier .
Cara Anda menafsirkan ini adalah bahwa hanya Expend
waran yang diperlakukan sebagai efek nonlinear yang lancar. Smooths lain dapat dikonversi menjadi istilah parametrik linier. Anda mungkin ingin memeriksa bahwa kelancaran Room.Board
terus memiliki efek non-parametrik tidak signifikan setelah Anda mengubah smooths lain menjadi linear, istilah parametrik; mungkin efeknya Room.Board
sedikit nonlinear tetapi ini dipengaruhi oleh adanya istilah halus lainnya dalam model.
Namun, banyak dari ini mungkin tergantung pada kenyataan bahwa banyak smooths hanya diperbolehkan menggunakan 2 derajat kebebasan; mengapa 2?
Pemilihan kelancaran otomatis
Pendekatan yang lebih baru untuk menyesuaikan GAM akan memilih tingkat kelancaran untuk Anda melalui pendekatan pemilihan kelancaran otomatis seperti pendekatan spline yang dikenakan hukuman dari Simon Wood sebagaimana diterapkan dalam paket yang direkomendasikan mgcv :
data(College, package = 'ISLR')
library('mgcv')
set.seed(1)
nr <- nrow(College)
train <- with(College, sample(nr, ceiling(nr/2)))
College.train <- College[train, ]
m <- mgcv::gam(Outstate ~ Private + s(Room.Board) + s(PhD) + s(perc.alumni) +
s(Expend) + s(Grad.Rate), data = College.train,
method = 'REML')
Ringkasan model lebih ringkas dan langsung mempertimbangkan fungsi halus sebagai keseluruhan daripada sebagai kontribusi linear (parametrik) dan nonlinier (nonparametrik):
> summary(m)
Family: gaussian
Link function: identity
Formula:
Outstate ~ Private + s(Room.Board) + s(PhD) + s(perc.alumni) +
s(Expend) + s(Grad.Rate)
Parametric coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8544.1 217.2 39.330 <2e-16 ***
PrivateYes 2499.2 274.2 9.115 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Approximate significance of smooth terms:
edf Ref.df F p-value
s(Room.Board) 2.190 2.776 20.233 3.91e-11 ***
s(PhD) 2.433 3.116 3.037 0.029249 *
s(perc.alumni) 1.656 2.072 15.888 1.84e-07 ***
s(Expend) 4.528 5.592 19.614 < 2e-16 ***
s(Grad.Rate) 2.125 2.710 6.553 0.000452 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
R-sq.(adj) = 0.794 Deviance explained = 80.2%
-REML = 3436.4 Scale est. = 3.3143e+06 n = 389
Sekarang output mengumpulkan syarat-syarat halus dan parametrik ke dalam tabel terpisah, dengan yang terakhir mendapatkan keluaran yang lebih mirip dengan model linear. Seluruh istilah efek halus ditampilkan di tabel bawah. Ini bukan tes yang sama dengan gam::gam
model yang Anda tunjukkan; mereka menguji terhadap hipotesis nol bahwa efek halus adalah garis datar, horizontal, efek nol atau menunjukkan efek nol. Alternatifnya adalah efek nonlinear yang sebenarnya berbeda dari nol.
Perhatikan bahwa semua EDF lebih besar dari 2 kecuali untuk s(perc.alumni)
, menunjukkan bahwa gam::gam
model mungkin sedikit membatasi.
Smooths yang dipasang untuk perbandingan diberikan oleh
plot(m, pages = 1, scheme = 1, all.terms = TRUE, seWithMean = TRUE)
yang menghasilkan
Pilihan kelancaran otomatis juga dapat dikooptasi untuk mengecilkan persyaratan dari model sepenuhnya:
Setelah melakukan itu, kita melihat bahwa model yang cocok belum benar-benar berubah
> summary(m2)
Family: gaussian
Link function: identity
Formula:
Outstate ~ Private + s(Room.Board) + s(PhD) + s(perc.alumni) +
s(Expend) + s(Grad.Rate)
Parametric coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8539.4 214.8 39.755 <2e-16 ***
PrivateYes 2505.7 270.4 9.266 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Approximate significance of smooth terms:
edf Ref.df F p-value
s(Room.Board) 2.260 9 6.338 3.95e-14 ***
s(PhD) 1.809 9 0.913 0.00611 **
s(perc.alumni) 1.544 9 3.542 8.21e-09 ***
s(Expend) 4.234 9 13.517 < 2e-16 ***
s(Grad.Rate) 2.114 9 2.209 1.01e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
R-sq.(adj) = 0.794 Deviance explained = 80.1%
-REML = 3475.3 Scale est. = 3.3145e+06 n = 389
Semua smooths tampaknya memberi kesan sedikit efek nonlinear bahkan setelah kita menciutkan bagian linier dan nonlinear dari splines.
Secara pribadi, saya menemukan output dari mgcv lebih mudah untuk ditafsirkan, dan karena telah ditunjukkan bahwa metode pemilihan kelancaran otomatis akan cenderung cocok dengan efek linier jika didukung oleh data.