Latar Belakang
Saya sedang mengerjakan serangkaian data pembacaan meter energi. Panjang seri bervariasi menurut meter - untuk beberapa saya punya beberapa tahun, yang lain hanya beberapa bulan, dll. Banyak menampilkan musiman yang signifikan, dan sering beberapa lapisan - dalam hari, minggu, atau tahun.
Salah satu hal yang saya kerjakan adalah pengelompokan dari deret waktu ini. Pekerjaan saya bersifat akademis untuk saat ini, dan sementara saya juga melakukan analisis data lainnya, saya memiliki tujuan khusus untuk melakukan pengelompokan.
Saya melakukan beberapa pekerjaan awal di mana saya menghitung berbagai fitur (persentase digunakan pada akhir pekan vs hari kerja, persentase digunakan dalam blok waktu yang berbeda, dll.). Saya kemudian beralih ke melihat menggunakan Dynamic Time Warping (DTW) untuk mendapatkan jarak antara seri yang berbeda, dan pengelompokan berdasarkan nilai perbedaan, dan saya telah menemukan beberapa makalah terkait dengan ini.
Pertanyaan
Apakah perubahan musiman pada rangkaian tertentu menyebabkan pengelompokan saya salah? Dan jika demikian, bagaimana saya menghadapinya?
Kekhawatiran saya adalah bahwa jarak yang diperoleh DTW bisa menyesatkan dalam kasus di mana pola dalam rangkaian waktu telah berubah. Ini dapat menyebabkan pengelompokan yang salah.
Jika hal di atas tidak jelas, perhatikan contoh-contoh ini:
Contoh 1
Satu meter memiliki pembacaan rendah dari tengah malam hingga jam 8 pagi, pembacaan kemudian meningkat tajam untuk jam berikutnya dan tetap tinggi dari jam 9 pagi sampai jam 5 sore, kemudian turun tajam dari jam berikutnya dan kemudian tetap rendah dari jam 6 sore sampai tengah malam. Meteran melanjutkan pola ini secara konsisten setiap hari selama beberapa bulan, tetapi kemudian berubah menjadi pola di mana bacaan hanya tetap pada tingkat yang konsisten sepanjang hari.
Contoh 2
Satu meter menunjukkan kira-kira jumlah energi yang sama yang dikonsumsi setiap bulan. Setelah beberapa tahun, itu berubah menjadi pola di mana penggunaan energi lebih tinggi selama bulan-bulan musim panas sebelum kembali ke jumlah yang biasa.
Kemungkinan Arah
- Saya bertanya-tanya apakah saya dapat terus membandingkan seri waktu keseluruhan, tetapi membaginya dan menganggapnya sebagai seri terpisah jika polanya berubah banyak. Namun, untuk melakukan ini, saya harus dapat mendeteksi perubahan tersebut. Juga, saya tidak tahu apakah ini cara yang cocok atau bekerja dengan data.
- Saya juga mempertimbangkan untuk membagi data dan mempertimbangkannya sebagai banyak seri waktu yang terpisah. Misalnya, saya bisa menganggap kombinasi setiap hari / meter sebagai seri terpisah. Namun, saya kemudian harus melakukan hal yang sama jika saya ingin mempertimbangkan pola mingguan / bulanan / tahunan. Saya pikir ini akan berhasil, tetapi ini berpotensi cukup berat dan saya akan benci untuk menempuh jalan ini jika ada cara yang lebih baik yang saya lewatkan.
Catatan selanjutnya
Ini adalah hal-hal yang muncul dalam komentar, atau hal-hal yang saya pikirkan karena komentar, yang mungkin relevan. Saya meletakkannya di sini sehingga orang tidak perlu membaca semuanya untuk mendapatkan informasi yang relevan.
- Saya bekerja di Python, tetapi memiliki rpy untuk tempat-tempat di mana R lebih cocok. Saya belum tentu mencari jawaban Python - jika seseorang memiliki jawaban praktis tentang apa yang harus dilakukan, saya senang mengetahui sendiri detail implementasi.
- Saya memiliki banyak kode "draft kasar" yang berfungsi - saya telah melakukan beberapa proses DTW, saya telah melakukan beberapa jenis pengelompokan, dll. Saya pikir saya sangat memahami arah yang saya ambil, dan apa yang saya lakukan. Saya benar-benar mencari terkait dengan bagaimana saya memproses data saya sebelum menemukan jarak, menjalankan clustering, dll. Mengingat ini, saya menduga jawabannya akan sama apakah jarak antara seri dihitung melalui DTW atau Euclidean Distance (ED) yang lebih sederhana.
- Saya telah menemukan makalah ini sangat informatif tentang deret waktu dan DTW dan mereka mungkin membantu jika beberapa latar belakang diperlukan untuk bidang topik: http://www.cs.ucr.edu/~eamonn/selected_publications.htm