Bagaimana cara mengelompokkan deret waktu?


22

Saya punya pertanyaan tentang analisis kluster. Ada 3000 perusahaan, yang harus dikelompokkan sesuai dengan penggunaan daya mereka selama 5 tahun. Setiap perusahaan memiliki nilai untuk setiap jam selama 5 tahun. Saya ingin mengetahui apakah beberapa perusahaan memiliki pola yang sama dalam penggunaan daya selama periode waktu tersebut. Hasilnya harus digunakan untuk prediksi penggunaan daya harian. Jika Anda memiliki beberapa ide bagaimana mengelompokkan deret waktu dalam SPSS, silakan bagikan dengan saya.


1
Saya sarankan Anda memeriksa tautan terkait di sisi kanan halaman. Ada beberapa pertanyaan yang sifatnya sangat mirip, lihat Apakah mungkin melakukan pengelompokan seri waktu berdasarkan bentuk kurva? dan Memodelkan data longitudinal di mana efek waktu bervariasi dalam bentuk fungsional antara individu hanya untuk dua contoh.
Andy W

Kesamaan Proc dalam SAS dapat mengelompokkan deret waktu.
peramal

Jawaban:


11

A) Luangkan banyak waktu untuk preproses data. Pra-pemrosesan adalah 90% dari pekerjaan Anda.

B) Pilih ukuran kesamaan yang sesuai untuk deret waktu. Sebagai contoh, threshold crossing distance mungkin merupakan pilihan yang baik di sini. Anda mungkin tidak akan menginginkan jarak waktu dinamis, kecuali Anda memiliki zona waktu berbeda. Ambang batas mungkin lebih tepat untuk mendeteksi pola temporal, sementara tidak memperhatikan besarnya sebenarnya (yang kemungkinan akan sangat berbeda dari perusahaan ke perusahaan).

C) Cluster matriks dissimlarity yang dihasilkan menggunakan metode seperti hierarchical clustering atau DBSCAN yang dapat bekerja dengan fungsi jarak arbitrer.


dapatkah Anda menjelaskan mengapa jarak waktu dinamis tidak ada pilihan yang baik untuk pengelompokan seri waktu?
Hardik Gupta

Itu bukan pernyataan umum. Apakah itu baik atau tidak tergantung pada apakah Anda ingin memberikan waktu bengkok, atau tidak.
Anony-Mousse -Reinstate Monica

7

Anda mungkin ingin melihat seri waktu Perkiraan jam dengan periodisitas harian, mingguan & tahunanuntuk diskusi data per jam yang melibatkan data harian dan hari libur / regressor. Anda memiliki data 5 tahun sementara diskusi lainnya melibatkan 883 nilai harian. Apa yang saya sarankan adalah Anda bisa membuat ramalan setiap jam dengan menyertakan regressor seperti hari-of-the-week; minggu-tahun dan liburan menggunakan total harian sebagai prediktor tambahan. Dengan cara ini Anda akan memiliki 24 model untuk masing-masing 3.000 perusahaan. Sekarang apa yang ingin Anda lakukan adalah dengan jam, perkirakan 3.000 model menggunakan struktur ARIMAX umum untuk pola respons di sekitar masing-masing regressor, hari-of-the-minggu, perubahan hari-of-the-minggu parameter dan indikator mingguan sambil mengisolasi outlier. Kemudian Anda dapat memperkirakan parameter secara global menggunakan semua 3000 perusahaan. Lakukan Tes Chowhttp://en.wikipedia.org/wiki/Chow_test untuk keteguhan parameter dan setelah penolakan mengelompokkan perusahaan menjadi kelompok-kelompok yang homogen. Saya menyebut ini sebagai analisis kluster dimensi tunggal. Karena SPSS memiliki kemampuan yang sangat terbatas dalam rangkaian waktu, Anda mungkin ingin mencari tempat lain untuk perangkat lunak.


1
"vanilla" sepertinya kata yang aneh untuk digunakan tentang R; tidak jelas tentang terjemahan dalam terminologi R yang lebih umum. Perbedaan apa pun antara paket dasar R dan kontribusi tambahan dari CRAN benar-benar tidak menggigit pengguna yang berpengalaman, atau bahkan yang pemula, karena mereka sama-sama gratis dan dapat diakses dengan sama. Kesan saya adalah bahwa seseorang yang memiliki akses ke SPSS dapat mengatakan dengan cukup mudah bahwa ada sesuatu yang tidak mungkin di SPSS saat ini tanpa pemrograman; untuk mengatakan hal yang sama tentang R memerlukan keakraban dengan semua paket seri waktu.
Nick Cox
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.