Perkiraan Poisson, interval akurasi dan prediksi

Saya mencoba memperkirakan Poissondata, dibagi dalam grup 1-26 months of data, tergantung pada grup. Dari data yang dikumpulkan 65% has a value of 0dan 25% a value of 1. Saya tidak dapat menemukan tren atau musim, jadi saya mulai menguji beberapa model stationairy berbeda. Moving average (3), Moving Average (6), Simple Exponential Smoothing, NaïveDan Simple Mean.

Saya perlu memperkirakan 1-6 bulan ke depan dan digunakan MAD, MSEdan RMSEuntuk menguji keakuratan model. Sepertinya yang paling akurat adalah Simple Mean, dengan RMSE of 1dan MAD of 0,638. Saya pikir ini sangat tinggi tetapi saya tidak tahu bagaimana melakukan sesuatu tentang ini.

Apakah ada metode perkiraan yang tidak saya pikirkan yang bisa menjadi lebih baik? Apakah saya terlalu memperhatikan sesuatu?

Satu-satunya hal yang saya dapat temukan tentang interval prediksi adalah F+tsdan F-tsdengan Fperkiraan, tsebagai distribusi t dengan alfa (n-2)dan ssebagai standar deviasi. Itu tidak berpikir itu adalah sumber yang benar-benar dapat dipercaya tetapi karena saya tidak dapat menemukan yang lain, saya tidak yakin tentang bagaimana mengatur interval prediksi tersebut. Apakah metode ini benar?

Saya tidak punya R untuk digunakan. Saya perlu melakukannya sendiri.

— R. White
sumber

Anda memiliki apa yang disebut permintaan terputus - putus , yaitu serangkaian waktu permintaan yang ditandai oleh "banyak" nol. (Jika deret waktu Anda bukan permintaan per se, sebagian besar dari yang berikut masih akan berlaku.) Jadi pencarian web untuk "memperkirakan permintaan berselang" akan sudah membantu. Teunter dan Duncan (2009, JORS) memberikan gambaran umum tentang metode peramalan permintaan yang terputus-putus.

Metode standar untuk meramalkan permintaan intermiten adalah metode Croston. Gunakan pemulusan eksponensial pada interval antar-permintaan dan pada ukuran permintaan yang bukan nol secara terpisah . Perkiraan titik kemudian adalah rasio permintaan bukan nol yang dihaluskan dengan interval antar-permintaan yang diperhalus. Syntetos dan Boylan (2001, IJPE) mencatat bahwa Croston sedikit bias dan mengusulkan modifikasi, tetapi ini biasanya tidak membuat banyak perbedaan dalam praktiknya.

Alternatifnya adalah integer autoregressive moving average model (INARMA), yang memodifikasi model deret waktu ARIMA standar. Maryam Mohammadipour menulis tesis tentang ini.

Saya pribadi memiliki keraguan besar tentang kegunaan perkiraan titik ekspektasi tersebut. Rangkaian waktu 1 permintaan setiap periode waktu lainnya memiliki harapan 0,5 ... seperti halnya rangkaian waktu 2 permintaan setiap periode waktu keempat ... dan seterusnya - meskipun ini, tentu saja, semakin sedikit Poisson-y . Saya berpendapat bahwa jauh lebih berguna untuk memahami seluruh distribusi permintaan di masa depan (dan prediksi). Jadi saya salut Anda mencari interval prediksi!

Namun, rumus Anda temukan hanya berlaku untuk pemulusan eksponensial tunggal pada data kontinu , melalui model ARIMA yang optimal untuk SES. Jadi tidak mungkin untuk menghitung data. Saya lebih suka mengusulkan agar Anda mengambil prediksi titik Anda dan menggunakan kuantil dari distribusi Poisson dengan parameter . Ini masih mengabaikan ketidakpastian estimasi parameter (bersama dengan ketidakpastian pemilihan model, dll.), Tetapi kemungkinan sederhana dan kemungkinan lebih baik daripada formula yang Anda miliki. $\alpha(n-2)$ $\hat{y}$ $\lambda=\hat{y}$

Shenstone dan Hyndman (2005, JoF) mencatat bahwa tidak ada model stokastik yang konsisten di mana metode Croston akan optimal - semua model kandidat adalah (1) kontinu, tidak diskrit, dan (2) dapat menghasilkan nilai negatif. Namun, untuk model kandidat tersebut, Shenstone dan Hyndman memberikan interval prediksi.

Akhirnya, kata hati-hati: jangan gunakan MAD untuk menilai keakuratan prakiraan data hitungan, terutama tidak untuk permintaan berselang. MAD yang diharapkan diminimalkan oleh median distribusi masa depan Anda, bukan berarti , dan jika Anda menulis bahwa 65% dari data Anda nol, maka median adalah nol ... menyiratkan bahwa Anda mungkin akan mendapatkan MAD terendah dengan flat perkiraan nol, yang bias berat dan kemungkinan tidak berguna. Berikut adalah presentasi yang saya berikan pada Simposium Internasional tahun lalu tentang Peramalan tentang masalah ini. Atau lihat Morlidge (2015, Foresight) .

Bagian terakhir dari promosi mandiri yang tidak tahu malu: Saya memiliki artikel di IJF (Kolassa, 2016) yang membahas peramalan data jumlah volume rendah (sebagian besar berselang), pada langkah-langkah akurasi yang berbeda dan metode peramalan yang berbeda, termasuk berbagai rasa model Poisson. Ini mungkin bermanfaat bagi Anda.

— Stephan Kolassa
sumber

Terima kasih atas reaksi Stephan. Anda memberi saya banyak pengetahuan dan wawasan baru, saya sepenuhnya berbalik arah. Saya sangat suka PDF naskah Anda, saya pikir ini akan sangat membantu

— R. White

Pertanyaan lain, jika Anda tidak keberatan. artikel ini menjelaskan bagaimana saya harus menguji sebentar-sebentar data saya. Sekarang saya perhatikan banyak median qiper kelompok memiliki nilai 1. Lebih rendah tidak benar-benar mungkin sehingga akan menganggap sebagian besar kelompok saya tidak berselang, kan?

— R. White

Klasifikasi itu baru bagi saya. Ini tentu tidak umum dalam literatur akademik. Namun, saya tahu penulis makalah SAS itu, dan mereka biasanya tahu apa yang mereka lakukan. Saya sarankan Anda mencoba metode intermittent dan non-intermittent pada data Anda dan melihat mana yang terbaik - kemudian lihat apakah itu ada hubungannya dengan kriteria yang diberikan dalam makalah SAS. Syntetos & Boylan (2005) dan Boylan et al. (2008) memberikan klasifikasi alternatif.

— Stephan Kolassa

Permintaan yang terputus-putus sulit diperkirakan. Masalahnya adalah bahwa perbedaan antara permintaan nol dan permintaan nol adalah (relatif!) Besar - dan bahwa kita biasanya tidak tahu kapan permintaan nol akan terjadi. Saya sarankan Anda menjalankan beberapa simulasi. Simulasikan Poisson variabel acak dan periksa RMSE apa yang Anda dapatkan ketika Anda memperkirakan ekspektasi (dikenal!). Ini mensimulasikan situasi di mana Anda tahu rata-rata permintaan tinggi , tetapi Anda tidak tahu kapan permintaan akan terjadi. Anda mungkin akan menemukan bahwa RMSEs cukup besar.

— Stephan Kolassa

Intinya: kecuali Anda dapat memperkirakan kapan permintaan akan terjadi, permintaan yang terputus-putus hanya sulit diperkirakan. Selain itu, jika Anda meramalkan permintaan yang akan terjadi di masa , tetapi tidak terjadi pada periode , yang mungkin cukup OK untuk proses perkiraan memakan Anda - tapi RMSE dan langkah-langkah error lainnya masih akan menghitung ini sebagai Fail. Ada ide-ide oleh Kourentzes (2014 - dikutip dalam makalah saya) untuk langkah-langkah kesalahan mengandalkan perkiraan kumulatif dan tuntutan yang menghukum "kesalahan waktu" semacam ini kurang kuat daripada "kesalahan waktu" yang lebih besar.

t

$t$

t + 1

$t+1$

— Stephan Kolassa