Rangkaian waktu dengan banyak subjek dan banyak variabel

Saya seorang pengembang web dan ahli statistik pemula.

Data saya terlihat seperti ini

Subject  Week   x1  x2  x3  x4  x5  y1
A        1      .5  .6  .7  .8  .7  10
B        1      .3  .6  .2  .1  .3  8
C        1      .3  .1  .2  .3  .2  6  
A        2      .1  .9  1.5 .8  .7  5
B        2      .3  .6  .3  .1  .3  2
D        2      .3  .1  .4  .3  .5  10

Saya mencoba untuk memprediksi y1 sebagai produk dari variabel x. Namun, saya punya alasan untuk percaya bahwa mungkin ada kelambatan dalam pengaruh beberapa variabel x pada y1, yaitu variabel x dari minggu 1 untuk subjek A mempengaruhi y1 untuk subjek A dalam minggu 2.

Perhatikan bahwa tidak semua subjek memiliki poin data untuk setiap minggu (bahkan sebagian besar tidak akan). Subjek akan cenderung memiliki poin data untuk mengatakan minggu 1, 2, 3, 4 kemudian turun dan tidak muncul lagi sampai minggu 7,8,9. Saya bersedia membatasi analisis saya ke titik data di mana kami memiliki data untuk N minggu sebelumnya mengingat hipotesis saya tentang jeda.

Seperti yang saya katakan, saya seorang pemula dan tidak yakin cara terbaik untuk menangani dataset formulir ini. Saya berharap untuk melakukan analisis ini baik dalam R, Python, atau kombinasi keduanya. Saya tidak berpikir bahwa variabel x minggu ini tidak akan berpengaruh. Saya pikir mereka akan memiliki efek, mungkin lebih besar dari minggu-minggu sebelumnya. Saya hanya percaya bahwa minggu-minggu sebelumnya akan memiliki efek.

Saya berharap ada dua hingga tiga minggu jeda. Untuk memberikan sedikit konteks, analisis yang saya coba di sini berkaitan dengan menilai kualitas lalu lintas online. Setiap minggu saya mendapat nilai skor kualitas aliran tertentu dari pengguna yang saya kirim ke situs web tertentu. Saya mencoba menemukan metrik sekunder, seperti distribusi peramban, persen klik duplikat, dll. Yang memungkinkan saya memprediksi berapa skor yang akan terjadi sebelumnya.

— Spencer
sumber

Saya mengantisipasi bahwa ini bukan jawaban yang lengkap, tetapi harus memberi Anda tempat untuk memulai. Saya akan mulai dengan materi dalam Bab 7 / Bagian 6/7/8 dari buku "Bayesian Statistical Modeling" oleh Peter Congdon. Masalah saya menyangkut prediksi ruang / waktu dari peristiwa IED dan sedikit lebih rumit daripada milik Anda tetapi semua ada di sana; Saya mencoba menemukan kode WinBUGS lama saya (yang dapat Anda gunakan kembali menjadi implementasi R / JAGS). Namun, ada kode WinBUGS yang tersedia untuk contoh Congdon dan mereka harus memberi Anda titik awal yang baik.

— Aengus

Karena saya seorang pemula, apakah Anda pikir Anda bisa menjelaskan kepada saya pada tingkat tinggi apa yang perlu saya lakukan dan apa yang diwakilinya dalam hal analisis? Terima kasih banyak dan kode apa pun yang dapat Anda berikan akan sangat dihargai! Saya kenal dengan python dan R.

— Spencer

Berapa banyak lag yang Anda bicarakan? Hanya satu minggu, atau beberapa minggu? Apakah Anda berharap bahwa adalah fungsi dari hanya dari satu minggu sebelumnya, atau banyak minggu sebelumnya? Meskipun contoh Anda ditata dengan baik, menyediakan serangkaian variabel dunia nyata kemungkinan akan memberi Anda jawaban yang lebih baik, karena penjawab akan dapat melihat apa yang Anda coba lakukan.

y_{w e e k n}

$y_{week\ n}$

x

$x$

— naught101

Saya berharap ada 2-3 minggu keterlambatan. Saya telah mengedit pertanyaan untuk memberikan contoh dunia nyata.

— Spencer

Saya akan menganggapnya sebagai regresi sederhana. Para kovariat adalah x1 (t), x2 (t), ..., x5 (t) ditambah variabel lagged Anda x1 (t-1), x1 (t-2), dll. Bergantung pada seberapa canggih yang ingin Anda dapatkan, Anda bisa menebak di lag dan plot x1 (t-lag) versus y1 dan mencari hubungan atau Anda bisa menjalankan autokorelasi. Anda harus bisa melakukan yang pertama dengan sangat cepat di R menggunakan bingkai data dan Anda tidak punya banyak penambahan lag yang perlu dikhawatirkan. Saya sudah meninggalkan diskusi tentang mata pelajaran, tapi saya naik. Cara termudah untuk memulai dengan itu adalah kode mereka sebagai variabel diskrit.

— Aengus

Seperti yang saya sebutkan dalam catatan saya di atas, saya akan memperlakukan ini sebagai masalah regresi. Berikut ini tautan untuk menyusun, dalam R, variabel lag (dan prospek) dari data Anda ( R Head ).

Termasuk dalam pos adalah pengantar singkat untuk menggunakan data yang dihasilkan dalam model regresi. Anda mungkin juga ingin melakukan sedikit penggalian latar belakang pada R paket dynlm (regresi linier dinamis).

— Aengus
sumber

Saya membaca tentang regresi linear dinamis dan tampaknya sesuai dengan apa yang saya cari. Apakah Anda memiliki bahan bacaan yang disarankan?

— Spencer

Maaf, jangan di atas kepala saya. Anda mungkin sudah mengetahui paket 'dlm' di R; inilah tautan dengan beberapa tautan

— Aengus

Anda bisa membuat tabel di mana y1 digeser 0,1,2,3,4 minggu.

Kemudian Anda menjalankan analisis pada mereka. Misalnya, Anda bisa membuat jaringan saraf yang mencoba memprediksi y1 dari x. Untuk beberapa ide, Anda dapat memberikan Weka putaran.

Kemudian, Anda memiliki ukuran untuk memprediksi y1 dari x untuk setiap jeda. Dengan ini, Anda dapat menemukan lag yang paling cocok.

Atau, Anda dapat membuat satu tabel yang menyertakan x dari minggu ini, x dari minggu sebelumnya, ... dan y1. Kemudian lakukan analisis pengaruh (mis. PCA ) untuk melihat minggu mana dan variabel mana yang paling berpengaruh.

— j13r
sumber

Saya tidak berpikir bahwa variabel x minggu ini tidak akan berpengaruh. Saya pikir mereka akan memiliki efek, mungkin lebih besar dari minggu-minggu sebelumnya. Saya hanya percaya bahwa minggu-minggu sebelumnya akan memiliki efek. Selain itu, karena saya sudah terbiasa dengan R dan python, saya lebih suka menggunakan alat-alat itu.

— Spencer

@Spencer Anda akan menemukan paket python / R untuk semua alat di Weka. Lihat jawaban yang diperbarui.

— j13r