@Irishstat membahas cukup banyak tentang apa yang akan saya katakan, tetapi saya akan merespons dengan pengalaman pribadi saya sendiri dalam memodelkan data ini dengan regresi deret waktu dan regresi OLS.
Jika ini adalah data harian maka saya akan melakukan hal berikut:
Buat variabel dummy untuk berbagai musim:
- Untuk mengabadikan hari dalam seminggu, buat 6 variabel dummy.
- Untuk mengabadikan hari di musim, buat 30 variabel dummy
- Untuk menangkap bulan dalam setahun, buat 11 variabel dummy.
Buat variabel dummy untuk variabel tren:
Jika seri waktu menunjukkan tren linier, maka tambahkan variabel tren waktu.
Jika deret waktu menunjukkan tren nonlinier, tambahkan variabel tren waktu nonlinier seperti kuadrat / kubik / log
Tambahkan Variabel variabel bebas
Ini adalah data deret waktu, jadi harus diperhatikan efek timbal dan lag dari varibales independen. Misalnya dalam contoh Anda, Anda menyebutkan bendera promosi titik harga, mereka mungkin tidak memiliki efek langsung pada respons Anda, yaitu, mungkin ada lagging dan efek pembusukan / permanen . Jadi misalnya, jika menjalankan promosi hari ini, Anda mungkin mengalami peningkatan penjualan hari ini tetapi efek promosi meluruh setelah beberapa hari. Tidak ada cara mudah untuk memodelkan ini menggunakan regresi berganda, Anda ingin menggunakan pemodelan fungsi transfer yang parsimonoius dan dapat menangani segala jenis efek memimpin dan lag. Lihat contoh ini yang saya posting sebelumnya, di mana ada intervensi (dalam titik harga kasus Anda) dan ada peningkatan yang tiba-tiba, diikuti oleh efek pembusukan. Karena itu jika Anda memilikipengetahuan apriori tentang efek awal dan lag, buat variabel tambahan dalam variabel dummy kasus Anda sebelum dan setelah titik harga dan (ya / tidak) perubahan promosi.
Anda juga perlu menambahkan variabel indikator Liburan yang bergerak, misalnya seperti yang ditunjukkan Irishstat bahwa Anda ingin menambahkan Paskah / Thanksgiving (di AS) yang memindahkan Liburan. Liburan yang tanggalnya sudah ditentukan akan secara otomatis dijaga jika Anda menggunakan skema pengkodean boneka untuk menangkap musiman.
Selain itu, Anda perlu mengidentifikasi pencilan seperti aditif / pulsa (peristiwa satu kali) atau pergeseran level (pergeseran permanen) dan menambahkannya sebagai regressor. Mengidentifikasi pencilan dalam regresi berganda untuk data deret waktu hampir tidak mungkin; Anda akan memerlukan metode deteksi pencilan seri waktu seperti prosedur Tsay atau prosedur Chen dan Liu yang telah dimasukkan dalam perangkat lunak seperti AUTOBOX, SPSS, SAS atau tsoutlier
paket dalam R.
Masalah Potensial:
Berikut ini adalah masalah yang akan Anda temui jika Anda memodelkan data deret waktu menggunakan regresi berganda OLS.
- Kesalahan mungkin terkait otomatis. Lihat ini bagus situs dan ini situs menjelaskan masalah ini. Salah satu cara untuk menghindari ini adalah dengan menggunakan Generalized least square (GLS) atau pendekatan ARIMAX vs regresi berganda OLS, di mana Anda dapat memperbaiki korelasi otomatis.
- 6+30+11=47
- Dengan menggunakan variabel dummy, Anda mengasumsikan bahwa musiman Anda bersifat deterministik yaitu tidak berubah seiring waktu. Karena Anda hanya memiliki 3 tahun data, saya tidak akan khawatir tentang hal itu, tetapi tetap ada baiknya untuk merencanakan seri dan melihat apakah musim tidak berubah.
Dan ada banyak kelemahan menggunakan regresi berganda. Jika prediksi lebih penting bagi Anda maka saya akan bertahan setidaknya 6 bulan data dan menguji kemampuan prediksi regresi berganda Anda. Jika tujuan utama Anda adalah untuk menjelaskan korelasi antara variabel independen, maka saya akan berhati-hati menggunakan regresi berganda, dan sebagai gantinya saya akan menggunakan pendekatan deret waktu seperti ARIMAX / GLS.
Jika Anda tertarik, Anda bisa merujuk ke teks yang sangat baik oleh Pankratz , untuk fungsi transfer dan pemodelan regresi dinamis. Untuk peramalan seri waktu umum, lihat Makridakis et al . Juga, teks referensi yang baik adalah oleh Diebold untuk peramalan berdasarkan regresi dan seri waktu.