Pemodelan data longitudinal di mana efek waktu bervariasi dalam bentuk fungsional antara individu


32

Konteks :

Bayangkan Anda memiliki studi longitudinal yang mengukur variabel dependen (DV) sekali seminggu selama 20 minggu pada 200 peserta. Meskipun saya tertarik pada umumnya, DV yang saya pikirkan termasuk kinerja pekerjaan setelah perekrutan atau berbagai tindakan kesejahteraan setelah intervensi psikologi klinis.

Saya tahu bahwa pemodelan multilevel dapat digunakan untuk memodelkan hubungan antara waktu dan DV. Anda juga dapat mengizinkan koefisien (mis. Intersep, kemiringan, dll.) Bervariasi antar individu dan memperkirakan nilai tertentu untuk peserta. Tetapi bagaimana jika saat memeriksa data secara visual Anda menemukan bahwa hubungan antara waktu dan DV adalah salah satu dari yang berikut:

  • berbeda dalam bentuk fungsional (mungkin ada yang linier dan ada yang eksponensial atau ada yang diskontinuitas)
  • berbeda dalam varian kesalahan (beberapa individu lebih mudah berubah dari satu titik waktu ke titik berikutnya)

Pertanyaan :

  • Apa yang akan menjadi cara yang baik untuk mendekati pemodelan data seperti ini?
  • Secara khusus, pendekatan apa yang baik dalam mengidentifikasi berbagai jenis hubungan, dan mengelompokkan individu sehubungan dengan jenis mereka?
  • Implementasi apa yang ada dalam R untuk analisis tersebut?
  • Apakah ada referensi tentang cara melakukan ini: buku teks atau aplikasi yang sebenarnya?

Jawaban:


20

Saya akan menyarankan untuk melihat tiga arah berikut:

  • pengelompokan longitudinal : ini tidak diawasi, tetapi Anda menggunakan pendekatan k-means yang mengandalkan kriteria Calinsky untuk menilai kualitas partisi (paket kml , dan referensi yang termasuk dalam bantuan online); jadi pada dasarnya, itu tidak akan membantu mengidentifikasi bentuk spesifik untuk waktu individu, tetapi hanya memisahkan profil evolusi homogen
  • beberapa jenis kurva pertumbuhan laten untuk heteroskedastisitas: tebakan terbaik saya adalah dengan melihat referensi yang luas di sekitar perangkat lunak MPlus , terutama FAQ dan pengiriman surat. Saya juga pernah mendengar tentang model heteroskedastik multiplikasi efek acak (coba googling dengan kata kunci tersebut). Saya menemukan makalah ini ( 1 , 2 ) menarik, tetapi saya tidak melihatnya secara detail. Saya akan memperbarui dengan referensi pada penilaian neuropsikologis setelah kembali ke kantor saya.
  • PCA fungsional ( paket FPGA ) tetapi mungkin layak untuk melihat analisis data fungsional

Referensi lain (hanya melihat-lihat):


1
Terima kasih. Gagasan untuk menggunakan prosedur pengelompokan telah terjadi pada saya. Saya membayangkan tantangannya adalah untuk secara memadai menangkap dan mempertimbangkan fitur kurva tingkat individu yang mungkin dengan cara yang bermakna secara teoritis. Saya akan melihat bagaimana kerjanya dalam kml.
Jeromy Anglim

1
Yah, itu bekerja cukup baik meskipun antarmuka yang buruk (dan saya tahu orang yang membangunnya :) - Saya menggunakannya dua bulan lalu untuk memisahkan kelompok klinis berdasarkan profil individu pada pengukuran perkembangan (Brunet-Lézine).
chl

1
Berikut referensi utama lain untuk FDA: psych.mcgill.ca/misc/fda
Mike Lawrence

1
Saya menemukan pengantar tautan FDA ini oleh Ramsay (2008), khususnya dapat diakses gbi.agrsci.dk/~shd/public/FDA2008/FDA_Sage.pdf
Jeromy Anglim


6

It looks to me like Growth Mixture Models might have potential to allow you to examine your error variance. (PDF here). (I'm not sure what multiplicative heteroscedastic models are, but I will definitely have to check them out).

Latent group based trajectory models have become really popular lately in criminology. But many people simply take for granted that groups actually exist, and some astute research has pointed out that you will find groups even in random data. Also to note Nagin's group based modelling approach does not allow you to assess your error (and honestly I have never seen a model that would look anything like a discontinuity).

Although it would be difficult with 20 time points, for exploratory purposes creating simple heuristics to identify patterns could be helpful (e.g. always low or always high, coefficient of variation). I'm envisioning sparklines in a spreadsheet or parallel coordinates plots but I doubt they would be helpful (I honestly have not ever seen a parallel coordinate plot that is very enlightening).

Good luck


@chl, No problem, Thank you for all the resources you listed here.
Andy W

Good point about latent groups. I've seen several applications of latent class analysis & cluster analysis where it seems to be just carving up a continuous variable int categories such low & high (jeromyanglim.blogspot.com/2009/09/…). However, I do have some individual-level longitudinal data which visually look like they are coming from categorically distinct data generating processes (e.g., always high, always low, gradual increasing, low-then-abrupt-increase, etc.) and within categories there is more continuous variation of parameters.
Jeromy Anglim

@Jeromy, I don't think the work I cited would discourage people from using such methods to identify latent groups. I would say the point of the work is that you can't use such methods to solely infer the existence of groups, because you will always find groups, even in random data. It is up to more subjective interpretation whether those groups you find are real or are simply artifacts of the method. You could identify some logical theories that generate such processes and then see if the groups identified fit within those theories.
Andy W

5

Four years after asking this question, I've learnt a few things, so perhaps I should add a few ideas.

I think Bayesian hierarchical modelling provides a flexible approach to this problem.

Software: Tools like jags, stan, WinBugs, and so on potentially combined with their respective R interface packages (e.g., rjags, rstan) make it easier to specify such models.

Varying within person error: Bayesian models make it easy to specify the within person error variance as a random factor that varies between people.

For example, you could model scores y on participants i=1,...,n at time points j=1,...J as

yijN(μi,σi2)
μi=γ
γN(μγ,σγ2)
σiGamma(α,β)

Thus the standard deviation of each person might be modelled as a gamma distribution. I have found this to be an important parameter in many psychological domains where people vary in how much they vary over time.

Latent classes of curves: I have not explored this idea as much yet, but it is relatively straight forward to specify two or more possible data generating functions for each individual and then let the Bayesian model choose the most likely model for a given individual. Thus, you would typically get posterior probabilities for each individual regarding which functional form describes the individuals data.

As a sketch of an idea for a model, you could have something like the following:

yijN(μij,σ2)
μij=γiλij(1)+(1γi)λij(2)
λij(1)=θ1i(1)+θ2i(1)exp(θ3i(1))
λij(2)=θ1i(2)+θ2i(2)xij+θ3i(2)xij2
γi=Bernoulli(πi)

Where xij is time and λij(1) represents expected values for a three parameter exponential model and λij(2) represents expected values for a quadratic model. πi represents the probability that model will choose λij(1).


I've also been moving to the Bayesian framework, and have been reading on using Gaussian Processes for time series analysis of uncertain function forms. Still unclear how it can be applied to the case of hierarchical data (see my unanswered query here: groups.google.com/d/msg/stan-users/yjDWtMhxQQE/2TiYevy0ZwUJ)
Mike Lawrence

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.