Saya pribadi tidak akan menyebut ini "pembersihan data". Saya berpikir tentang pembersihan data lebih dalam arti mengedit data - membersihkan inkonsistensi dalam kumpulan data (misalnya catatan telah melaporkan usia 1000, atau orang berusia 4 adalah orang tua tunggal, dll.).
Kehadiran efek nyata dalam data Anda tidak membuatnya "berantakan" (sebaliknya, kehadiran efek nyata akan membuatnya kaya) - meskipun itu dapat membuat tugas matematika Anda lebih terlibat. Saya menyarankan agar data "dibersihkan" dengan cara ini jika itu satu-satunya cara yang layak untuk mendapatkan prediksi. Jika ada cara yang layak yang tidak membuang informasi, maka gunakan itu.
Sepertinya Anda dapat mengambil manfaat dari semacam analisis siklus, mengingat bahwa Anda mengatakan efek ini muncul secara berkala (seperti "siklus bisnis").
Dari sudut pandang saya, jika Anda melihat perkiraan sesuatu, maka menghapus efek asli dari sumber itu hanya dapat membuat prediksi Anda lebih buruk. Ini karena Anda telah secara efektif "membuang" informasi yang ingin Anda prediksi!
Poin lainnya adalah bahwa mungkin sulit untuk menentukan berapa banyak dari serangkaian kematian disebabkan oleh epidemi, dan berapa banyak yang disebabkan oleh fluktuasi biasa.
Dalam terminologi statistik, epidemi terdengar seperti itu, dari sudut pandang Anda, itu adalah "gangguan" untuk apa yang sebenarnya ingin Anda analisis. Jadi, Anda tidak terlalu tertarik dengan itu, tetapi Anda harus memperhitungkannya dalam analisis Anda. Salah satu cara "cepat dan kotor" untuk melakukan ini dalam pengaturan regresi adalah dengan memasukkan indikator untuk tahun / periode epidemi sebagai variabel regresi. Ini akan memberi Anda perkiraan rata-rata dampak epidemi (dan secara implisit mengasumsikan pengaruhnya sama untuk setiap epidemi). Namun, pendekatan ini hanya berfungsi untuk menggambarkan efeknya, karena dalam peramalan, variabel regresi Anda tidak diketahui (Anda tidak tahu periode mana di masa depan yang akan menjadi epidemi).
Cara lain untuk menjelaskan epidemi adalah dengan menggunakan model campuran dengan dua komponen: satu model untuk bagian epidemi dan satu model untuk bagian "biasa". Model kemudian melanjutkan dalam dua langkah: 1) mengklasifikasikan suatu periode sebagai epidemi atau normal, kemudian 2) menerapkan model yang diklasifikasikan.