Beberapa model ARIMA cocok dengan data. Bagaimana cara menentukan pesanan? Pendekatan yang benar?

Saya punya dua seri waktu (parameter model untuk pria dan wanita) dan bertujuan untuk mengidentifikasi model ARIMA yang tepat untuk membuat perkiraan. Rangkaian waktu saya terlihat seperti:

masukkan deskripsi gambar di sini

Plot dan ACF menunjukkan non-stasioner (paku ACF terputus sangat lambat). Jadi, saya menggunakan differencing dan memperoleh:

masukkan deskripsi gambar di sini

Plot ini menunjukkan bahwa seri sekarang mungkin stasioner dan penerapan tes kps dan tes ADF mendukung hipotesis ini.

Dimulai dengan seri Male, kami melakukan pengamatan berikut:

Autokorelasi empiris pada Lags 1,4,5,26 dan 27 berbeda signifikan dari nol.
ACF terputus (?), Tapi saya khawatir dengan lonjakan yang relatif besar pada lag 26 dan 27.
Hanya autokorelasi parsial empiris pada Lags 1 dan 2 berbeda signifikan dari nol.

Berdasarkan pengamatan ini saja, jika saya harus memilih model AR atau MA murni untuk rangkaian waktu yang berbeda, saya cenderung memilih salah satu model AR (2) dengan menyatakan bahwa:

Kami tidak memiliki autokorelasi parsial yang signifikan untuk kelambatan lebih besar dari 2
ACF terputus kecuali untuk wilayah sekitar lag 27. (Apakah beberapa outlier ini hanya merupakan indikator, bahwa model ARMA campuran akan sesuai?)

atau model MA (1) dengan menyatakan bahwa:

PACF jelas terputus
Kami memiliki lag yang lebih besar, hanya 4 paku yang melebihi nilai kritis besarnya. Ini "hanya" satu lebih dari 3 paku (95% dari 60) yang akan diizinkan berada di luar area bertitik.

Tidak ada karakteristik model ARIMA (1,1,1) dan memilih pesanan p dan q model ARIMA dengan alasan ACF dan PACF untuk p + q> 2 menjadi sulit.

Menggunakan auto.arima () dengan kriteria AIC (Haruskah saya menggunakan AIC atau AICC?) Memberikan:

ARIMA (2,1,1) dengan Drift; AIC = 280.2783
ARIMA (0,1,1) dengan Drift; AIC = 280.2784
ARIMA (2,1,0) dengan Drift; AIC = 281.437

Ketiga model yang dipertimbangkan menunjukkan residu white noise:

masukkan deskripsi gambar di sini

Pertanyaan yang saya simpulkan adalah:

Masih bisakah Anda menggambarkan ACF dari deret waktu sebagai pemotongan meskipun ada lonjakan di sekitar jeda 26?
Apakah outlier ini merupakan indikator bahwa model ARMA campuran mungkin lebih tepat?
Kriteria Informasi mana yang harus saya pilih? AIC? AICC?
Residual dari ketiga model dengan AIC tertinggi semuanya menunjukkan perilaku white noise, tetapi perbedaan dalam AIC hanya sangat kecil. Haruskah saya menggunakan yang memiliki parameter paling sedikit, yaitu ARIMA (0,1,1)?
Apakah argumentasi saya secara umum masuk akal?
Apakah kemungkinan lebih lanjut mereka untuk menentukan model mana yang lebih baik atau haruskah saya misalnya, keduanya dengan AIC tertinggi dan melakukan backtests untuk menguji masuk akal perkiraan?

EDIT: Ini data saya:

-5.9112948202 -5.3429985122 -4.7382340534 -3.1129015623 -3.0350910288 -2.3218904871 -1.7926701792 -1.1417358384 -0.6665592055 -0.2907748318 0.2899480865 0.4637205370  0.5826312749  0.3869227286  0.6268379174  0.7439125292 0.7641139207  0.7613140511  3.0143912244 -0.7339255839  2.0109976796 0.8282394650 -2.5668367983  5.9826406394  1.9569198553  2.3860893476 2.0883339390  1.9761894580  2.2601997245  2.2464027995  2.5131158613 3.4564765529  4.2307335557  4.0298688374  3.7626317439  3.1026407174 2.1690168737  1.5617407254  2.6790460788  0.4652054768 -0.0501046517 -1.0157683791 -0.5113698054 -0.0180401353 -1.9471272198 -0.2550365250 -1.1269988523  0.5152074134  0.2362626753 -2.9978337017  1.4924705528 -1.4907767844 -0.5492041416 -0.7313021018 -0.6531515868 -0.4094159299 -0.5525401626 -0.0611454515 -0.5256272882 -1.1235247363 -1.7299848758 -1.3807763611 -1.6999054476 -4.3155973110 -4.7843298990

— Stats_L
sumber

1) Dapatkah Anda masih menggambarkan ACF dari deret waktu sebagai pemotongan meskipun lonjakan sekitar lag 26?

26 dan 27 menyarankan kepada saya bahwa data adalah mingguan, semacam siklus tahunan, urutan 26 atau 52

Apakah outlier ini merupakan indikator bahwa model ARMA campuran mungkin lebih tepat?

Jika ada outlier dalam seri yang diamati maka model ARIMA menjadi Model Fungsi Transfer dengan input dummy.

Pencilan dalam ACF / pacf biasanya tidak dapat ditafsirkan. Rathe menggunakan acf / paf dari model tentatif yang disarankan oleh acf / pacf abd yang dominan kemudian ITERATE ke model yang lebih kompleks.

Kriteria Informasi mana yang harus saya pilih? AIC? AICC? Residual dari ketiga model dengan AIC tertinggi semuanya menunjukkan perilaku white noise, tetapi perbedaan dalam AIC hanya sangat kecil. Haruskah saya menggunakan yang memiliki parameter paling sedikit, yaitu ARIMA (0,1,1)?

Tidak ada karena didasarkan pada serangkaian uji coba model yang diasumsikan.

Apakah argumentasi saya secara umum masuk akal? Pertanyaan yang tidak jelas ... bahkan respons yang tidak jelas.

Apakah kemungkinan lebih lanjut mereka untuk menentukan model mana yang lebih baik atau haruskah saya misalnya, keduanya dengan AIC tertinggi dan melakukan backtests untuk menguji masuk akal perkiraan?

Cukup ITERATE (perlahan!) Untuk model yang lebih rumit menggunakan menggabungkan struktur auto-regessive dan struktur determinstic. Lihat http://www.autobox.com/cms/index.php/blog/entry/build-or-make-your-own-arima-forecasting-mode untuk diagram alir logika

EDIT SETELAH PENERIMAAN DATA:

Saya disesatkan oleh komentar Anda, Anda menggunakan kata lag 26 dan saya salah mengerti Anda berbicara tentang ACF tetapi Anda berbicara tentang titik waktu 26. Satu set data dapat menjadi tidak stasioner dalam beberapa cara. Jika mean menggeser obat untuk ketidak-stasionerian ini adalah tidak bermakna. Dalam kasus Anda, non-stasioneritas disebabkan oleh dua tren yang berbeda dan berbeda dan satu peningkatan varian kesalahan yang signifikan. Kedua temuan ini mudah didukung oleh mata. masukkan deskripsi gambar di sini

Data Anda memiliki non-stasioneritas tetapi obat untuk non-stasioneritas data Anda dalam mean tidak berbeda tetapi tidak tren saat dua tren ditemukan (1-29 dan 30-65) ditemukan melalui Intervensi Deteksi. Selanjutnya varians kesalahan Anda tidak stasioner meningkat secara signifikan pada periode 28 ditemukan melalui tes Tsay untuk varians kesalahan tidak konstan, Lihat referensi ini untuk kedua prosedur http://www.unc.edu/~jbhill/tsay.pdf . Setelah menyesuaikan untuk dua tren dan perubahan varians kesalahan dan beberapa pulsa, model AR (1) sederhana ditemukan cukup. Berikut adalah plot Actual / Fit / Forecast. Persamaannya masukkan deskripsi gambar di sini ada di sini dengan hasil estimasi di sini . Uji perubahan varian ada di sini dan plot residual model ada di sini. Saya menggunakan AUTOBOX perangkat lunak yang telah saya bantu kembangkan untuk memisahkan sinyal dari noise secara otomatis. Kumpulan data Anda adalah "poster boy" mengapa pemodelan ARIMA sederhana tidak banyak digunakan karena metode sederhana tidak bekerja pada masalah yang kompleks. Catat juga bahwa perubahan varians kesalahan tidak dapat dihubungkan ke tingkat seri pengamatan sehingga transformasi daya seperti log tidak relevan meskipun makalah yang diterbitkan menyajikan model menggunakan struktur itu. Lihat Log atau transformasi kuadrat-akar untuk ARIMA untuk diskusi tentang kapan harus melakukan transformasi kekuasaan.

masukkan deskripsi gambar di sini

— IrishStat
sumber

Terima kasih banyak atas komentarnya yang bermanfaat. Sayangnya, deret waktu mewakili estimasi parameter model (mortalitas) untuk rentang tahun. Jadi, saya tidak berpikir memasukkan komponen musiman dapat menyelesaikan masalah ini. Mengenai titik Anda mulai dari model tentatif sederhana dan kemudian beralih ke model yang lebih kompleks: Melihat ACF dan PACF dari Residual dari ARIMA (0,1,1), mereka menunjukkan perilaku WN. Pola apa yang saya lewatkan yang akan menyoroti kebutuhan model yang lebih kompleks? Btw, saya baru saja menambahkan data saya.

— Stats_L

Terima kasih banyak atas usaha dan komentar Anda. Menariknya, parameter mewakili efek kohort model kematian, yang telah umum dimodelkan sebagai ARIMA (p, d, q) model sederhana dalam literatur, lihat misalnya pensions-institute.org/workingpapers/wp0801.pdf

— Stats_L

Kata kuncinya di sini adalah "sederhana". Aktuaris, meskipun ahli matematika yang berbakat, tidak harus mutakhir dalam analisis deret waktu. Analisis yang baik menyajikan tes signifikansi dan kecukupan yang menunjukkan uji asumsi. Anda dapat meneruskan hasil ini kepada penulis dan mendapatkan umpan balik mereka atau setidaknya kredit untuk memperluas kesadaran mereka.

— IrishStat

Ini akan menjelaskan mengapa pilihan model ARIMA (p, d, q) tertentu seringkali didasarkan pada nilai AIC saja (atau setidaknya pemeriksaan lebih lanjut tidak disebutkan dan dijelaskan secara rinci). Jika Anda akan menemukan waktu dalam beberapa hari ke depan, saya akan sangat tertarik dengan pendapat Anda tentang seri waktu kedua saya, saya harus memperkirakan dan apakah jalan acak dengan drift mungkin tepat. Itu dapat ditemukan di sini: stats.stackexchange.com/questions/161571/…

— Stats_L