Jack-knife dengan model deret waktu

pengantar

Saya bertujuan untuk memperkirakan tingkat pertumbuhan tahunan untuk sejumlah indikator ekonomi makro (dilambangkan oleh ). Salah satu tugas adalah untuk menguji kinerja peramalan model deret waktu saingan dengan dan tanpa variabel eksogen ( , a matrix). Daftar model pesaing meliputi: $Y_t$ $X_t$ $T\times k$

Model AR (I) MA (tingkat pertumbuhan tahunan tidak mungkin memiliki "unit Roo", meskipun yang terakhir diasumsikan atau diuji) $A (L) Y_{t} = μ + B (L) ε_{t}$ $A(L)Y_t =\mu+ B(L)\varepsilon_t$
model regresi linier dengan kesalahan ARMA $Y_{t} = X_{t} β + η_{t}, A (L) η_{t} = B (L) ε_{t}$ $Y_t = X_t\beta + \eta_t, \ \ A(L)\eta_t = B(L)\varepsilon_t$
model variabel dependen tertinggal (model autoregresif dengan variabel eksogen) $A (L) Y_{t} = X_{t} β + ε_{t}$ $A(L)Y_t = X_t\beta + \varepsilon_t$
model regresi linier $Y_{t} = X_{t} β + ε_{t}$ $Y_t = X_t\beta + \varepsilon_t$

Di mana diasumsikan sebagai derau putih yang kuat, proses varians konstan varians nol rata-rata; dan bersifat autoregresif (orde ) dan moving average (orde ) polinomial dengan - operator back-shift (lag). $\varepsilon_t$ $A(L)$ $B(L)$ $p$ $q$ $L$

Perhatikan bahwa tujuan utama dan satu-satunya adalah memperkirakan kinerja, sehingga setiap properti "baik" dari estimasi parameter menjadi perhatian sekunder. Yang saya butuhkan adalah menguji peramal kondisi yang paling pelit, kuat untuk memulai. Keputusan akan dibuat dengan salah satu accuracy()opsi, tetapi pertama-tama saya harus mendapatkan bahan untuk perbandingan.

Model 1. dan 2. diestimasi auto.arima()dengan "CSS-ML"metode estimasi default . Model 3. dan 4. diperkirakan oleh kuadrat terkecil biasa ( lm()). sekitar perempat. $T$ $40$

Pendekatan mencoba sejauh ini

Untuk membuat residu berlekuk-jack, pendekatan pertama yang dilambangkan dengan "rolling" telah diimplementasikan. Mulai dari sub-sampel yang besar dari data deret waktu, parameter diperkirakan dan perkiraan depan dilakukan oleh fungsi (EDIT: ini adalah saran yang sama seperti pada bagian pertama jawaban Rob untuk pertanyaan kedua). Setelah itu satu titik ditambahkan dan langkah estimasi \ prediksi diulang. $h$ predict()

Titik lemah dari percobaan tersebut adalah bahwa jumlah kutu waktu (ukuran sampel) yang digunakan untuk memperkirakan parameter berbeda. Sementara saya ingin menguji ketahanan terhadap kondisi awal, menjaga ukuran sampel untuk estimasi tetap.

Dengan mengingat hal ini, saya mencoba mengatur beberapa nilai berikutnya (EDIT: untuk interval ) di menjadi nilai yang hilang (NA). Dalam model 2.-4. ini juga menyiratkan menjatuhkan baris berikutnya yang sesuai dalam matriks data . Prediksi untuk 3. dan 4. mudah (sama dengan baris data dihilangkan berfungsi dengan baik). Semua kekhawatiran saya adalah tentang model 1. dan 2. $k+p+q<t_0<t_1<T-h+1$ $Y_t$ $X_t$ predict() $X_t$

Dengan hanya bagian AR ( ) prediksi dilakukan secara berurutan . Tetapi dengan kehadiran MA ( ) seseorang tidak bisa (?) Menggunakan parameter yang diestimasi secara langsung. Dari Brockwell dan Davis "Pengantar Seri Waktu dan Peramalan" Bab 3.3 berikut ini kita perlu algoritma inovasi untuk memperkirakan secara dari sistem persamaan tertentu yang melibatkan estimasi parameter autoregresif dan rata-rata bergerak. EDIT: ini digunakan untuk membuat prediksi ARMA, bukan parameter perkiraan awalnya . Namun demikian bab yang sama bahwa $p$ $Y_{t+1|t} = \hat A(L)Y_t$ $q$ $\theta_{n,j}$ $\theta_{n,j}$ $\theta_{j}$ $\theta_{n,j}$ mendekati asimptotik jika prosesnya tidak bisa dibalik. Tidak jelas bahwa 30-40 poin sudah cukup untuk hasil asimptotik yang akan digunakan bahkan jika tidak dapat dibalik. $\theta_{j}$

Catatan: Saya tidak ingin membatasi ke nol, karena saya tidak melakukannya dalam peramalan out-of-sample yang sebenarnya. SUNTING: juga bukan berarti tidak ada masalah imputasi nilai, tetapi percobaan perkiraan, bahwa lintasan tidak seharusnya menjembatani dua sub-sampel dengan cara memasukkan nilai yang hilang. $q$

Pertanyaan

Apakah auto.arima()berkinerja dengan benar dengan adanya nilai yang hilang di dalam sampel? [Sudah dijawab oleh Rob.]
(Bagian yang sangat penting dari posting ini) Bagaimana cara memperkirakan dengan benar (TIDAK menyalahkan) titik-titik yang terlewatkan dari model ARMA ketika dan ? (Saya harap ada cara yang sudah diterapkan dalam bahasa R, tapi saya hanya kehilangan sesuatu.) $p>0$ $q>0$

EDIT: karena parameter untuk bagian ARMA diestimasi dengan benar, bisakah saya mengatur ulang objek arima secara legal untuk memasukkan estimasi parameter dan data hanya untuk subsampel pertama dan kemudian menggunakan fungsi prediksi?

EDIT2: Saya telah mencoba untuk memodifikasi modstruktur yang diestimasi - perkiraan yang dihasilkan dari predict.Arimaidentik (perbedaan presisi ganda) dengan perkiraan di mana saya menggunakan estimasi koefisien MA dan AR yang memprediksi secara langsung sebagai , tanpa . Ini diharapkan karena representasi ruang negara disediakan dengan estimasi yang sama , bukan . Jadi satu-satunya pertanyaan yang tersisa adalah perbedaan antara dan signifikan untuk mempengaruhi perkiraan titik? Saya harap jawabannya negatif. $Y_{t+1|t}$ $\hat A(L)(Y_t-X_t\hat \beta)+ X_t\hat \beta+\hat B(L)\hat \varepsilon_t$ KalmanForecast() $\theta_j$ $\theta_{n,j}$ $\theta_j$ $\theta_{n,j}$

— Dmitrij Celov
sumber

Dalam itsmrpustaka yang mengimplementasikan prakiraan bagian proses ARMA untuk model 1. dan 2. mengharuskan menjadi nol rata-rata (karena diasumsikan nol rata-rata). Namun output dari menunjukkan bahwa residual bukan rata-rata nol, yaitu bukan rata-rata nol. Apakah saya perlu menambah jangka waktu mencegat dalam objek yang diperkirakan , sebelum membuat ramalan dengan pisau jack? Apakah saya harus melakukan hal yang sama untuk prediksi biasa ?

η_{t}

$\eta_t$

ε_{t}

$\varepsilon_t$ arima

Y_{t} - X_{t} \hat{β}

$Y_t-X_t\hat\beta$ ArimaArima

— Dmitrij Celov

PS estimasi hampir identik (dalam arti penyimpangan presisi ganda), jika saya mengatur in atau menambah intersep dalam memastikan bahwa residualnya adalah rata-rata nol.

μ = 0

$\mu = 0$ itsmrArima

— Dmitrij Celov

Saya tidak mengerti mengapa Anda berpikir adalah masalah untuk prediksi. Cukup mudah untuk memperkirakan menggunakan model ARIMA dengan ketentuan MA dan Anda tidak perlu menggunakan algoritma inovasi Brockwell dan Davis. Algoritma itu berguna untuk estimasi ; khususnya, dalam mendapatkan nilai awal ketika mengoptimalkan kemungkinan. $q>0$

Untuk menjawab pertanyaan spesifik Anda:

auto.arima()panggilan arima()yang menggunakan representasi ruang negara untuk menghitung kemungkinan. Nilai yang hilang ditangani secara alami dalam format ruang keadaan. Jadi, ya, mereka ditangani dengan benar.
Nilai historis yang hilang tidak diperkirakan oleh arima(). Jika Anda ingin meramalkannya (yaitu, hanya menggunakan data masa lalu), cukup paskan sebuah model hingga awal urutan yang hilang dan kemudian prakiraan darinya. Jika Anda ingin memperkirakannya (menggunakan data sebelum dan sesudahnya), Anda perlu menggunakan Kalman yang lebih halus berdasarkan model ruang keadaan setara. Tipuan alternatif yang memberikan hasil yang hampir sama adalah rata-rata perkiraan menggunakan data hingga data tidak hilang terakhir dengan backcast menggunakan data hingga data tidak hilang pertama setelah urutan yang hilang.

— Rob Hyndman
sumber