Jawaban:
Pertanyaan penting adalah, masalah apa yang Anda coba selesaikan?
Jika Anda bermaksud membangun model yang baik untuk data (dan kemudian menggunakan model untuk pengujian hipotesis, perkiraan atau apa pun), Anda harus memperhitungkan semua pola yang ada. Jika ada musim, Anda harus memasukkan pola musiman dalam model Anda. Jika Anda gagal melakukannya, modelnya mungkin tidak memadai; mungkin menghasilkan hasil tes hipotesis yang tidak dapat diandalkan, ramalan buruk, dll.
Sekarang Anda mengatakan Anda ingin menentukan (yang akan saya tafsirkan sebagai perkiraan) korelasi silang antara dua seri. Saya memahami bahwa korelasi silang hanyalah korelasi reguler yang diperkirakan untuk keterlambatan yang berbeda dibandingkan lead dari dua seri. Untuk intuisi, cukup mempertimbangkan korelasi teratur, yang akan saya lakukan selanjutnya. Idenya dapat dibawa dengan mulus dari korelasi reguler ke korelasi silang.
Jika kedua rangkaian waktu Anda adalah bivariat , korelasi sampel akan sesuai dengan korelasi populasi. Oleh karena itu, Anda bisa memiliki estimasi titik yang bermakna, interval kepercayaan dan apa yang tidak. Namun, jika setidaknya satu dari seri waktu tidak , mendefinisikan rekan populasi korelasi sampel menjadi sulit, dan kemudian perkiraan sulit untuk menafsirkan. Maka menjadi lebih mudah untuk menentukan model untuk data Anda dan mulai mengajukan pertanyaan dalam hal model.
Sekarang asumsikan bahwa kedua seri bivariat kecuali untuk pola musiman. Kemudian Anda dapat menghapusnya dan memperkirakan korelasi dari seri yang disesuaikan secara musiman (yang pada saat ini harus sekitar bivariat ). Namun ketahuilah bahwa korelasi yang Anda dapatkan setelah penyesuaian musiman tidak memberi tahu Anda pertanyaan awal, "Apa korelasi antara kedua seri?" Misalnya, dua seri Anda mungkin memiliki pola musiman yang persis sama dan hanya variasi acak kecil di sekitarnya. Dengan demikian kedua seri ini hampir sama, dan Anda akan secara intuitif berpikir korelasinya harus positif dan sangat tinggi (dekat dengan persatuan). Tetapi sampel korelasi yang Anda dapatkan setelah penyesuaian musimanmungkin berada di mana saja antara [-1,1] karena komponen kebisingan acak (diperkirakan, tetapi juga yang mendasari sebenarnya) dari kedua seri mungkin berkorelasi atau tidak. Dengan demikian Anda akan mendapatkan jawaban atas pertanyaan yang tidak terlalu Anda minati; tidak ada jaminan bahwa jawabannya akan mendekati apa yang sebenarnya Anda cari.
Oleh karena itu, saya sarankan Anda untuk bergantung pada model yang ditentukan sepenuhnya (kecuali jika kedua seri waktu Anda adalah bivariat ) dan mengajukan pertanyaan dalam hal model. Di sisi lain, jika Anda tidak punya waktu untuk membangun model dan Anda perlu jawaban cepat (itu bisa terjadi), saya percaya estimasi titik paling relevan dari korelasi antara kedua seri hanya akan menjadi sampel korelasi biasa (walaupun ia memiliki masalah tidak memiliki pasangan yang berarti dalam populasi dan interval kepercayaannya akan sulit untuk didefinisikan, seperti yang dijelaskan di atas).
Jika Anda mundur dua seri waktu (tidak terkait) dengan musiman Anda mungkin mendapatkan apa yang disebut korelasi palsu . Contohnya tersedia di sini
"Penting untuk mempertimbangkan apakah tren signifikan ada dalam seri; jika kita mengabaikan tren yang sama, kita dapat memperkirakan regresi palsu, di mana variabel dan tampaknya berkorelasi karena pengaruh pada keduanya yang dihilangkan. faktor, berlalunya waktu "- sumber
Tren commond bisa berupa drift atau pola musiman. Untuk menghindari korelasi palsu, ini adalah landasan untuk memutihkan data Anda, menghilangkan efek tren dan musiman. Anda kemudian dapat mundur pada residu.
Pengantar masalah yang lebih formal tersedia di sini
Tautan ke "solusi yang lebih formal" tampaknya mengarah ke halaman umum generik. Bisakah Anda memperbaruinya untuk menunjuk ke artikel, jika masih tersedia?