Seleksi df spline dalam masalah model aditif Poisson umum


9

Saya telah menyesuaikan beberapa data deret waktu menggunakan model aditif umum Poisson menggunakan SAS PROC GAM. Secara umum, saya sudah memiliki prosedur validasi silang internal yang terintegrasi menghasilkan setidaknya "titik awal" yang layak untuk spline tunggal saya, yang merupakan fungsi waktu non-linear bersama dengan istilah parametrik tunggal (yang saya sebenarnya tertarik).

Sejauh ini, ini bekerja dengan cukup baik, dengan pengecualian satu set data saya. Ada 132 pengamatan dalam kumpulan data itu, dan GCV menyarankan garis kebebasan 128 derajat. Sepertinya ... salah. Sangat salah. Lebih penting lagi, ini juga tidak stabil sama sekali. Saya mencoba pendekatan kedua, menggunakan sesuatu seperti kriteria "Perubahan Estimasi" untuk berhenti menambahkan derajat kebebasan ketika perkiraan istilah parametrik berhenti berubah karena mengapa terus menambahkan kontrol jika tidak ada yang berbeda?

Masalahnya adalah bahwa estimasi sama sekali tidak stabil. Saya mencoba tingkat kebebasan berikut, dan seperti yang Anda lihat, istilah parametrik memantul dengan liar:

DF: Parametric Estimate:
1   -0.76903
2   -0.56308
3   -0.47103
4   -0.43631
5   -0.33108
6   -0.1495
7    0.0743
8    0.33459
9    0.62413
10   0.92161
15   1.88763
20   1.98869
30   2.5223
40-60 had convergence issues
70   7.5497
80   7.22267
90   6.71618
100  5.83808
110  4.61436
128  1.32347

Saya tidak punya intuisi sama sekali tentang apa yang harus saya gunakan dalam hal df untuk bit data khusus ini. Ada ide lain tentang cara memilih df? Haruskah saya melihat pentingnya spline?

Melakukan beberapa pengamatan lebih lanjut antara df = 10 dan df = 15, sepertinya df = 12 adalah yang terdekat dengan perkiraan yang dihasilkan oleh 128 dan masih berada dalam kisaran "derajat kebebasan yang masuk akal". Seiring dengan istilah linear, intersep dan istilah parametrik tunggal, yang terasa seperti model yang sangat jenuh. Apakah dibenarkan hanya menggunakan 12?

Sebagai pembaruan kedua, mengubah smoothing dari spline(t)menjadi loess(t)menghasilkan estimasi df yang lebih baik - haruskah saya beralih ke loess smoothing?


Dalam dataset Anda dengan 132 pengamatan, apakah ada istilah penghitungan dan penyeimbangan terkait, yang menyiratkannya sebenarnya merupakan dataset tertimbang dengan lebih dari 132 pengamatan? Karena hubungan varians rata-rata dalam Poisson RVs, jumlah besar dapat menyebabkan sifat "pemilihan model" yang tidak menguntungkan karena "ukuran sampel besar".
AdamO

Dataset adalah data 132 minggu, dimodelkan sebagai jumlah = istilah model + log (waktu orang) sebagai offset. Hitungannya tidak pernah terlalu tinggi - tetapi ada cukup banyak nol.
Fomite

Jawaban:


5

λλλ

Wood (2011) juga mengilustrasikan bahwa AICc tidak memberikan banyak manfaat tambahan atas GCV untuk basis peringkat rendah hingga menengah yang digunakan untuk fungsi yang lancar.

λ

Wood (2011) menjelaskan prosedur estimasi REML dan ML yang cepat dan stabil, yang ia tunjukkan membaik dibandingkan pendekatan REML (ML) yang ada dalam hal konvergensi. Ide-ide ini tersedia dalam Simon mgcv paket untuk R .

Karena Wood (2011) berada di belakang paywall, saya menyertakan salinan gambar yang serupa (hasil AICc tidak ditampilkan di sini) yang diambil dari serangkaian slide Simon, tersedia di situs webnya , tentang metode pemilihan kelancaran {PDF}. Angka, dari slide 10, ditunjukkan di bawah ini

masukkan deskripsi gambar di sini

λλλ

y=f(x)+ε

Seperti yang disebutkan oleh @ M.Berk dan @BrendenDufault, tingkat subjektivitas mungkin diperlukan ketika menyiapkan basis spline, dalam hal memilih dimensi dasar yang sesuai yang cocok untuk GAM. Tetapi pemilihan kelancaran REML telah terbukti cukup kuat dalam pengalaman saya dalam berbagai aplikasi GAM menggunakan metode Wood.

Wood, SN (2011) Fast stable yang membatasi kemungkinan maksimum dan estimasi marginal likelihood dari model semiparametric generalisasi . J. Royal Statistics Society B 73 (Bagian 1), 3--6.


@EpiGrad Selamat Datang. Maaf saya melewatkan pertanyaan pada saat itu; selama satu atau dua tahun terakhir saya telah berjuang dengan situasi yang mirip dengan Anda dan telah membaca makalah Simon Wood tentang ini dan pemilihan fitur pada beberapa kesempatan. Senang saya bisa mengingat beberapa detail untuk membantu.
Gavin Simpson

3

Saya pikir taruhan terbaik Anda berada di luar algoritma perataan; pertimbangkan model kekikiran.

Anda menyinggung ini, tapi saya percaya itu harus menjadi kriteria seleksi utama Anda. Tanyakan pada diri Anda berapa banyak "tikungan" yang masuk akal berdasarkan etiologi / hubungan sebab akibat dari proses yang dimodelkan. Buat grafik splines yang dipasang dengan plots=components(clm)pernyataan dan nilai visual yang sesuai. Mungkin splines DF tinggi menceritakan kisah yang sama dengan splines DF rendah, kecuali lebih berisik. Dalam hal itu, pilih kecocokan DF rendah.

Lagipula, model-model GAM dimaksudkan untuk eksplorasi.

Setelah menggunakan opsi gcv sendiri, saya bertanya-tanya tentang kinerjanya dalam kondisi Poisson, data jarang, dll. Mungkin studi simulasi akan dilakukan di sini.


2

Saya mengetik jawaban berikut dan kemudian menyadari bahwa saya tidak tahu apakah itu berlaku untuk regresi Poisson yang saya tidak punya pengalaman dengannya. Mungkin orang bisa menjawabnya dengan beberapa komentar.


Secara pribadi, saya menyukai saran dari BW Silverman (1985) "Beberapa aspek dari pendekatan smoothing spline untuk penyesuaian kurva regresi non-parametrik (dengan diskusi)." (Tersedia tanpa berlangganan di sini ): coba berbagai parameter perataan dan pilih satu yang paling menarik secara visual.

Karena ia juga dengan tepat menunjukkan dalam makalah yang sama, sementara pendekatan subjektif mungkin lebih disukai, masih ada kebutuhan untuk metode otomatis. Namun, GCV umumnya merupakan pilihan yang buruk karena memiliki kecenderungan untuk gagal. Lihat, misalnya Hurvich et al (1998) "Menghaluskan Pemilihan Parameter dalam Regresi Nonparametrik Menggunakan Kriteria Informasi Akaike yang Ditingkatkan" (Tersedia tanpa berlangganan di sini ). Dalam makalah yang sama mereka mengusulkan kriteria baru yang dapat meringankan masalah Anda, AIC yang diperbaiki yang mencakup koreksi ukuran sampel kecil. Anda mungkin menemukan deskripsi Wikipedia tentang AICc lebih mudah diikuti daripada makalahnya. Artikel Wikipedia juga menyertakan beberapa saran bagus dari Burnham & Anderson (yaitu menggunakan AICc daripada AIC terlepas dari ukuran sampel).

Singkatnya, saran saya adalah, sesuai urutan preferensi:

  1. Pilih parameter smoothing secara manual melalui penilaian visual
  2. Gunakan AIC yang dikoreksi (AICc) daripada GCV
  3. Gunakan AIC standar
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.