Masalah apa yang harus saya perhatikan ketika menggabungkan beberapa seri waktu?


10

Katakanlah saya memiliki sejumlah deret waktu, misalnya sejumlah catatan suhu dari berbagai stasiun di suatu wilayah. Saya ingin mendapatkan catatan suhu tunggal untuk seluruh wilayah yang saya bisa menggambarkan aspek iklim regional. Pendekatan intuitif mungkin dengan hanya mengambil rata-rata semua stasiun di setiap catatan waktu, tetapi spider-sense statistik saya (yang saya jelas belum terhubung dengan baik) mengatakan kepada saya bahwa ini mungkin tidak begitu mudah. Secara khusus, saya membayangkan bahwa rata-rata di seluruh wilayah akan menghilangkan beberapa suhu ekstrem yang menarik, dan saya mungkin memiliki masalah dengan ketergantungan antara stasiun dekat.

Masalah apa lagi yang mungkin saya hadapi jika saya mencoba strategi seperti ini, dan apakah ada cara untuk mengatasinya, atau metode yang lebih masuk akal untuk menggabungkan data seperti ini?

Catatan: Jawaban bisa lebih umum daripada contoh spasial yang saya berikan.


1
Masalahnya mungkin dalam konflik Anda antara "catatan suhu tunggal untuk seluruh wilayah" dan minat Anda terhadap variasi intra-wilayah. Suatu solusi mungkin melibatkan beberapa cara untuk merekonsiliasi dua masalah ini misalnya varians partisi ke dalam komponen intra dan antar wilayah.
Peter Ellis

@PeterEllis, ya, saya samar-samar memikirkan itu. Untuk keperluan pertanyaan ini, anggaplah saya tidak peduli dengan variabilitas spasial intraregional.
naught101

dalam hal ini, saya pikir hal utama yang harus Anda khawatirkan adalah ketergantungan antara stasiun dekat. Temukan cara untuk menurunkan pengamatan yang secara efektif menduplikasi stasiun di sebelah, dan Anda akan baik-baik saja.
Peter Ellis

@PeterEllis: ok, tapi mungkin tidak ada cara fisik yang masuk akal untuk melakukan itu - Kedekatan stasiun tidak selalu berarti mereka lebih tergantung - mis. dua stasiun dekat di sisi yang berlawanan dari barisan gunung mungkin kurang mirip dari dua stasiun jauh di dataran yang luas. Apakah ada cara yang dapat diandalkan untuk mendefinisikan ketergantungan secara statistik? Covariance, saya kira ... Kemungkinan masih ada puncak yang lebih sedikit dalam seri yang dihasilkan (saya kira itu mencerminkan situasi fisik meskipun - perubahan temp di wilayah yang luas cenderung lebih lambat dan stabil daripada di satu tempat).
naught101

@naught, mengenai aspek spasial dari pertanyaan Anda, bagaimana wilayah Anda ditentukan? Dalam komentar Anda, Anda menyebutkan bahwa dua stasiun dekat di sisi berlawanan gunung bisa berbeda dari dua stasiun jauh di dataran yang luas. Sudahkah Anda mempertimbangkan mendefinisikan ulang wilayah stasiun berdasarkan kedekatan dan kesamaan untuk analisis Anda? Mereka tidak perlu harus sesuai dengan batas-batas regional konvensional. Alih-alih, mereka dapat menjadi hamparan analitik yang dapat diplot di atas peta tradisional.
dav

Jawaban:


1

Pertama, saya ingin mengatakan bahwa saya akan menambahkan komentar, tetapi saya belum bisa melakukannya (perwakilan), tapi saya suka pertanyaannya dan ingin berpartisipasi, jadi inilah "jawaban". Saya juga melihat ini sudah tua, tetapi menarik.

Pertama, apakah mungkin untuk menggunakan teknik reduksi dimensi, seperti PCA, untuk menyingkat deret waktu? Jika nilai eigen pertama besar, mungkin itu berarti bahwa Anda menggunakan vektor eigen akan mewakili sebagian besar dinamika.

Kedua, dan lebih umum, apa yang Anda inginkan dari rangkaian waktu? Tidak tahu apa-apa lagi, saya kira suhu bisa sedikit berbeda. Misalnya, jika beberapa catatan suhu berada di dekat kota, Anda bisa mendapatkan efek tipe "pulau panas". Atau mungkin perubahan kecil dalam jarak lateral terjadi untuk menghasilkan perubahan besar dalam jarak vertikal --- satu lokasi bisa di permukaan laut dan tepat di lautan, dan yang lain tidak "terlalu jauh", tetapi pada ketinggian satu kilometer di ketinggian. Mereka pasti akan memiliki suhu yang berbeda!

Ini hanya beberapa pemikiran. Mungkin orang lain bisa melompat masuk dan memberikan jawaban yang lebih baik.


1
Poin yang bagus. Sejujurnya, saya tidak dapat mengingat apa konteks di sekitar pertanyaan ini, dan saya merasa bahwa komentar saya menyesatkan. Saya secara khusus tertarik untuk tidak kehilangan variabilitas umum untuk semua stasiun, tetapi keluar dari fase. Pikirkan stasiun di seluruh benua, dan garis depan yang dingin melintas. Rata-rata spasial sederhana mungkin pada dasarnya menghilangkan front dingin, yang sebenarnya bukan hal yang baik, karena setiap stasiun akan menunjukkannya dengan kuat, tetapi pada waktu yang berbeda. Mungkin menjalankan semacam PCA di setiap stasiun dan kemudian rata-rata hasilnya entah bagaimana mungkin cara untuk menyiasatinya.
nucky101

O wow, ok, jadi jika Anda mencoba untuk mengkarakterisasi tren dalam deret waktu di wilayah tersebut, mungkin Anda harus membuat deret waktu stasioner, dan masing-masing dengan rata-rata 0. Anda juga dapat mencoba menghapus siklus harian dari masing-masing (atau hanya mengambil rata-rata harian). Maka Anda akan dibiarkan dengan perubahan frekuensi frekuensi yang lebih rendah, masing-masing berpusat di sekitar rata-rata 0. Setelah Anda memilikinya, maka mungkin Anda bisa menyingkat deret waktu terpusat + stasioner menggunakan beberapa teknik reduksi dimensi, seperti PCA. Saya senang Anda berbicara tentang konteks pertanyaannya sedikit, b / c yang sangat membantu. Barang bagus!
rbatt
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.