Saya baru mengenal analisis deret waktu, dan akan sangat menghargai saran tentang cara terbaik untuk mendekati masalah regresi deret waktu berikut: Saya memiliki pengukuran suhu per jam di sekitar 20 lokasi di satu lokasi selama tiga tahun, bersama dengan informasi tambahan statis (kemiringan, ketinggian, aspek, tutupan kanopi). Situs ini berukuran beberapa hektar, dan alat perekam suhu tersebar di seluruh situs sepanjang beberapa transek, dengan jarak ~ 20-50 m. Sekitar 1 km jauhnya, saya memiliki data per jam dari stasiun cuaca, yang juga menyediakan pengukuran kecepatan angin, arah angin, kelembaban, penerangan matahari, dll.
Saya ingin dapat memprediksi suhu (min, maks, rata-rata) di situs (secara umum) hanya menggunakan data dari weatherstation; itu di tempat semi-permanen, sedangkan perekam suhu di situs hanya di tempat selama 3 tahun. Jadi pada intinya saya memiliki beberapa variabel independen (suhu, kelembaban, angin, dll) di satu lokasi (weatherstation), tetapi variabel dependen tunggal (suhu) di beberapa lokasi, yang masing-masing juga memiliki beberapa atribut time-invariant: slope, ketinggian, aspek, dll.
Saya paling tertarik untuk memprediksi posisi terendah dan tertinggi harian di lokasi secara umum, daripada suhu setiap jam di setiap lokasi pencatatan suhu di lokasi. Meskipun, prediksi per jam itu tentu akan bernilai.
Pendekatan awal saya adalah menghitung rata-rata harian, minimum, dan maksimum dari suhu di lokasi, dan menggunakan ini sebagai variabel dependen dalam regresi linier sederhana, menggunakan pengukuran yang tersedia di Weatherstation sebagai variabel independen. Ini bekerja cukup baik (R2> 0,50 dengan 2 prediktor), tetapi tampaknya terlalu sederhana karena banyak alasan, dan saya membayangkan harus ada cara yang lebih canggih (dan kuat) untuk melakukan ini.
Pertama, saya tidak melakukan sesuatu yang eksplisit tentang sifat deret waktu dari nilai harian dalam regresi, dan meskipun menit atau suhu rata-rata dari satu hari ke hari berikutnya mungkin tidak berkorelasi seperti dari satu jam ke jam. selanjutnya, saya bertanya-tanya tentang masalah dengan independensi data harian ini (atau tentu saja setiap jam, jika saya mencoba memprediksi suhu setiap jam). Kedua, karena kekhawatiran dengan memiliki beberapa pengukuran suhu yang agak berkorelasi di seluruh situs (mereka jauh lebih mirip di antara mereka sendiri daripada data stasiun cuaca), saya hanya menggunakan rata-rata atau min atau maks dari semua pengukuran di seluruh situs , dibandingkan dengan memasukkan data dari masing-masing lokasi pengukuran secara langsung. Tetapi ini juga mencegah saya menggunakan informasi tambahan yang tidak berubah-waktu dari setiap lokasi pengukuran suhu (kemiringan, ketinggian, aspek, tutupan kanopi), yang mungkin akan menjelaskan bagian yang baik dari perbedaan suhu antara lokasi di lokasi. Ketiga, karena kekhawatiran dengan regresi yang didominasi oleh siklus diurnal yang sangat kuat dalam suhu, saya hanya melihat nilai-nilai harian daripada jam.
Setiap saran tentang cara yang lebih baik untuk membahas hal ini (terutama di R), atau di mana harus mulai mencari, akan sangat dihargai! Saya menyadari ada banyak paket R yang berhubungan dengan time-series, tetapi saya mengalami kesulitan menemukan tempat terbaik untuk memulai dengan masalah jenis ini karena tidak ada contoh yang saya lihat yang benar-benar mencerminkan situasi saya. mencoba model di sini.
Pembaruan: memikirkan hal ini sedikit lebih banyak, tidak jelas bagi saya apakah model deret waktu benar-benar cocok di sini karena saya tidak tertarik untuk memprediksi apa yang akan terjadi pada titik waktu tertentu di masa mendatang. Sebaliknya, saya hanya tertarik pada bagaimana suhu di situs terkait dengan suhu (dan variabel lingkungan lainnya) di weatherstation. Saya pikir mungkin analisis deret waktu akan bermanfaat karena saya khawatir bahwa pengukuran suhu berikutnya mungkin tidak cukup independen. Tentu saja, suhu satu jam sangat tergantung pada jam sebelumnya, tetapi ketergantungannya lebih lemah untuk data harian. Dalam kedua kasus, apakah korelasi waktu / data non-independensi time-series menjadi perhatian yang valid yang harus diatasi jika seseorang tidak tertarik pada prediksi time-series?