Pengungkapan penuh: Saya bukan ahli statistik, saya juga tidak mengaku sebagai ahli statistik. Saya seorang administrator TI rendahan. Tolong, mainlah dengan saya. :)
Saya bertanggung jawab untuk mengumpulkan dan memperkirakan penggunaan penyimpanan disk untuk perusahaan kami. Kami mengumpulkan penggunaan penyimpanan kami setiap bulan dan menggunakan regresi linear dua belas bulan bergulir sederhana untuk perkiraan (dengan kata lain, hanya data dua belas bulan sebelumnya yang dipertimbangkan saat membuat proyeksi). Kami menggunakan informasi ini untuk alokasi dan perencanaan pengeluaran modal, mis. "Berdasarkan model ini, kami akan perlu membeli jumlah x jika penyimpanan dalam y bulan untuk memenuhi kebutuhan kami." Ini semua bekerja cukup baik untuk memenuhi kebutuhan kita.
Secara berkala, kami memiliki pergerakan besar satu kali dalam jumlah kami yang membuat perkiraan tidak berjalan. Misalnya, seseorang menemukan 500GB cadangan lama yang tidak diperlukan lagi dan menghapusnya. Bagus untuk mereka karena mendapatkan kembali ruang! Namun perkiraan kami saat ini miring dengan penurunan besar dalam satu bulan ini. Kami selalu menerima bahwa penurunan seperti ini membutuhkan waktu 9-10 bulan untuk keluar dari model, tetapi itu bisa sangat lama jika kita memasuki musim perencanaan pengeluaran modal.
Saya bertanya-tanya apakah ada cara untuk menangani varians satu kali ini sedemikian rupa sehingga nilai yang diprakirakan tidak terlalu terpengaruh (misalnya kemiringan garis tidak berubah secara dramatis), tetapi mereka diperhitungkan (misalnya, perubahan satu kali pada nilai y yang dikaitkan dengan titik waktu tertentu). Upaya pertama kami untuk mengatasi ini telah menghasilkan beberapa hasil yang buruk (misalnya kurva pertumbuhan eksponensial). Kami melakukan semua pemrosesan kami di SQL Server jika itu penting.