Saya seorang pengembang web dan ahli statistik pemula.
Data saya terlihat seperti ini
Subject Week x1 x2 x3 x4 x5 y1
A 1 .5 .6 .7 .8 .7 10
B 1 .3 .6 .2 .1 .3 8
C 1 .3 .1 .2 .3 .2 6
A 2 .1 .9 1.5 .8 .7 5
B 2 .3 .6 .3 .1 .3 2
D 2 .3 .1 .4 .3 .5 10
Saya mencoba untuk memprediksi y1 sebagai produk dari variabel x. Namun, saya punya alasan untuk percaya bahwa mungkin ada kelambatan dalam pengaruh beberapa variabel x pada y1, yaitu variabel x dari minggu 1 untuk subjek A mempengaruhi y1 untuk subjek A dalam minggu 2.
Perhatikan bahwa tidak semua subjek memiliki poin data untuk setiap minggu (bahkan sebagian besar tidak akan). Subjek akan cenderung memiliki poin data untuk mengatakan minggu 1, 2, 3, 4 kemudian turun dan tidak muncul lagi sampai minggu 7,8,9. Saya bersedia membatasi analisis saya ke titik data di mana kami memiliki data untuk N minggu sebelumnya mengingat hipotesis saya tentang jeda.
Seperti yang saya katakan, saya seorang pemula dan tidak yakin cara terbaik untuk menangani dataset formulir ini. Saya berharap untuk melakukan analisis ini baik dalam R, Python, atau kombinasi keduanya. Saya tidak berpikir bahwa variabel x minggu ini tidak akan berpengaruh. Saya pikir mereka akan memiliki efek, mungkin lebih besar dari minggu-minggu sebelumnya. Saya hanya percaya bahwa minggu-minggu sebelumnya akan memiliki efek.
Saya berharap ada dua hingga tiga minggu jeda. Untuk memberikan sedikit konteks, analisis yang saya coba di sini berkaitan dengan menilai kualitas lalu lintas online. Setiap minggu saya mendapat nilai skor kualitas aliran tertentu dari pengguna yang saya kirim ke situs web tertentu. Saya mencoba menemukan metrik sekunder, seperti distribusi peramban, persen klik duplikat, dll. Yang memungkinkan saya memprediksi berapa skor yang akan terjadi sebelumnya.