Latar belakang: Saat ini saya sedang melakukan beberapa pekerjaan membandingkan berbagai model hirarki Bayesian. Data adalah ukuran numerik dari kesejahteraan untuk peserta dan waktu . Saya memiliki sekitar 1.000 peserta dan 5 hingga 10 pengamatan per peserta.
Seperti kebanyakan dataset longitudinal, saya berharap untuk melihat beberapa bentuk auto-korelasi dimana pengamatan yang lebih dekat pada waktunya memiliki korelasi yang lebih besar daripada yang terpisah jauh. Menyederhanakan beberapa hal, model dasarnya adalah sebagai berikut:
tempat saya membandingkan model tanpa lag:
dengan model lag:
di mana adalah rata-rata level orang dan adalah parameter lag (yaitu, efek lag menambahkan kelipatan dari penyimpangan pengamatan dari titik waktu sebelumnya dari nilai prediksi titik waktu itu). Saya juga harus melakukan beberapa hal untuk memperkirakan (yaitu, observasi sebelum pengamatan pertama).
Hasil yang saya dapatkan menunjukkan bahwa:
- Parameter lag adalah sekitar 0,18, 95% CI [.14, .21]. Yaitu, ini bukan nol
- Penyimpangan rata-rata dan DIC keduanya meningkat beberapa ratus ketika lag dimasukkan dalam model
- Pemeriksaan prediktif posterior menunjukkan bahwa dengan memasukkan efek lag, model lebih mampu memulihkan korelasi-otomatis dalam data
Jadi secara ringkas, parameter lag non-nol dan pemeriksaan prediktif posterior menunjukkan model lag lebih baik; namun penyimpangan rata-rata dan DIC menunjukkan bahwa model tanpa lag lebih baik. Ini membingungkan saya.
Pengalaman umum saya adalah bahwa jika Anda menambahkan parameter yang berguna itu setidaknya harus mengurangi penyimpangan rata-rata (bahkan jika setelah penalti kompleksitas DIC tidak ditingkatkan). Selain itu, nilai nol untuk parameter lag akan mencapai penyimpangan yang sama dengan model no lag.
Pertanyaan
Mengapa menambahkan efek lag meningkatkan penyimpangan rata-rata dalam model hierarkis Bayesian bahkan ketika parameter lag tidak nol dan meningkatkan pemeriksaan prediktif posterior?
Pikiran awal
- Saya telah melakukan banyak pemeriksaan konvergensi (misalnya, melihat traceplots; memeriksa variasi dalam hasil penyimpangan lintas rantai dan lintas berjalan) dan kedua model tampaknya telah berkumpul di posterior.
- Saya telah melakukan pemeriksaan kode di mana saya memaksa efek lag menjadi nol, dan ini memulihkan penyimpangan model no lag.
- Saya juga melihat penyimpangan rata-rata dikurangi hukuman yang seharusnya menghasilkan penyimpangan pada nilai yang diharapkan, dan ini juga membuat model lag tampak lebih buruk.
- Mungkin efek lag mengurangi jumlah pengamatan efektif per orang yang mengurangi kepastian dalam memperkirakan rata-rata level orang ( ) yang meningkatkan penyimpangan.
- Mungkin ada beberapa masalah dengan bagaimana saya memperkirakan titik waktu tersirat sebelum pengamatan pertama.
- Mungkin efek lag hanya lemah dalam data ini
- Saya mencoba memperkirakan model menggunakan kemungkinan menggunakan maksimum
lme
dengancorrelation=corAR1()
. Perkiraan parameter lag sangat mirip. Dalam hal ini model lag memiliki kemungkinan log yang lebih besar dan AIC yang lebih kecil (sekitar 100) daripada yang tanpa lag (yaitu, itu menyarankan model lag lebih baik). Jadi ini memperkuat gagasan bahwa menambahkan jeda juga harus menurunkan penyimpangan dalam model Bayesian. - Mungkin ada sesuatu yang istimewa tentang residu Bayesia. Jika model lag menggunakan perbedaan antara y diprediksi dan aktual pada titik waktu sebelumnya, maka kuantitas ini akan menjadi tidak pasti. Dengan demikian, efek lag akan beroperasi selama interval kredibel dari nilai residu tersebut.