Saya sedang mempertimbangkan dua strategi untuk melakukan "augmentasi data" pada peramalan seri waktu.
Pertama, sedikit latar belakang. Prediktor untuk meramalkan langkah selanjutnya dari rangkaian waktu adalah fungsi yang biasanya bergantung pada dua hal, seri waktu yang menyatakan masa lalu, tetapi juga keadaan masa lampau sang prediktor:
Jika kita ingin menyesuaikan / melatih sistem kita untuk mendapatkan baik , maka kita akan membutuhkan data yang cukup. Terkadang data yang tersedia tidak cukup, jadi kami mempertimbangkan untuk melakukan augmentasi data.
Pendekatan pertama
Misalkan kita memiliki time-series , dengan . Dan anggap juga kita memiliki yang memenuhi ketentuan berikut: .
Kita dapat membangun deret waktu baru , di mana adalah realisasi dari distribusi .
Kemudian, alih-alih meminimalkan fungsi kerugian hanya di atas , kami melakukannya juga di atas . Jadi, jika proses optimasi mengambil langkah-langkah , kita harus "menginisialisasi" prediktor kali, dan kami akan menghitung sekitar status internal prediktor.
Pendekatan kedua
Kami menghitung seperti sebelumnya, tetapi kami tidak memperbarui keadaan internal prediktor menggunakan , tetapi . Kami hanya menggunakan dua seri secara bersamaan pada saat menghitung fungsi kerugian, jadi kami akan menghitung sekitar status internal prediktor.
Tentu saja, ada lebih sedikit pekerjaan komputasi di sini (meskipun algoritmanya sedikit lebih jelek), tetapi tidak masalah untuk saat ini.
Keraguan
Masalahnya adalah: dari sudut pandang statistik, manakah pilihan "terbaik"? Dan mengapa?
Intuisi saya memberi tahu saya bahwa yang pertama lebih baik, karena membantu "mengatur" bobot yang terkait dengan keadaan internal, sedangkan yang kedua hanya membantu mengatur bobot yang terkait dengan masa lalu deret waktu yang diamati.
Tambahan:
- Adakah ide lain untuk melakukan augmentasi data untuk perkiraan seri waktu?
- Bagaimana bobot data sintetis dalam set pelatihan?