Mengapa model VAR saya bekerja lebih baik dengan data nonstasioner daripada data stasioner?

Saya menggunakan perpustakaan VAR statsmodels python untuk memodelkan data deret waktu keuangan dan beberapa hasil membuat saya bingung. Saya tahu bahwa model VAR menganggap data deret waktu stasioner. Saya secara tidak sengaja memasukkan serangkaian harga log non-stasioner untuk dua sekuritas yang berbeda dan secara mengejutkan nilai-nilai pas dan prakiraan sampel sangat akurat dengan residu stasioner yang relatif tidak signifikan. The pada perkiraan di-sampel adalah 99% dan standar deviasi dari seri sisa perkiraan sekitar 10% dari nilai-nilai perkiraan. $R^2$

Namun, ketika saya membedakan harga log dan menyesuaikan seri waktu itu dengan model VAR, nilai-nilai pas dan perkiraan jauh dari sasaran, memantul dalam kisaran ketat di sekitar rata-rata. Akibatnya, residu melakukan pekerjaan yang lebih baik dengan meramalkan pengembalian log dari nilai yang dipasang, dengan deviasi standar residu perkiraan 15X lebih besar dari seri data yang dipasang nilai 0,007 untuk seri perkiraan. $R^2$

Apakah saya salah mengartikan pemasangan vs residual pada model VAR atau membuat kesalahan lain? Mengapa deret waktu non-stasioner menghasilkan prediksi yang lebih akurat daripada seri stasioner berdasarkan pada data dasar yang sama? Saya telah bekerja sedikit baik dengan model ARMA dari pustaka python yang sama dan tidak melihat seperti pemodelan data seri tunggal ini.

— jpeginternet
sumber

Dua fakta: (1) Ketika Anda mundur satu jalan acak pada jalan acak lain dan secara keliru menganggap stasioneritas, Anda hampir selalu mendapatkan hasil yang sangat signifikan secara statistik, bahkan jika itu adalah proses independen! . (2) Jika dua variabel terkointegrasi , Anda dapat mundur satu sama lain dan penaksir Anda akan bertemu lebih cepat dari regresi biasa, hasil yang dikenal sebagai super-konsistensi.

— Matthew Gunn

Terima kasih banyak. Fakta # 1 jelas menjelaskan hasil untuk seri non-stasioner. Hasil dari seri stasioner tentu bertindak seolah-olah mereka menunjukkan apa yang Anda sebut super-konsistensi, kecuali bahwa kedua seri tidak terkointegrasi, sejauh yang saya tahu. Saya menjalankan regresi linier pada dua seri harga dan residu jauh dari stasioner. Jadi saya harus berasumsi kemudian bahwa model VAR diperkirakan sangat buruk karena dua seri kembali tidak sangat saling berhubungan. Tes granger mengonfirmasi hal itu juga.

— jpeginternet

@ MatthewGunn, komentar Anda bisa lebih cocok sebagai jawaban.

— Richard Hardy

Dua fakta:

Ketika Anda mundur satu jalan acak pada jalan acak lain dan secara keliru menganggap stasioneritas, perangkat lunak Anda umumnya akan memuntahkan kembali hasil yang signifikan secara statistik, bahkan jika itu adalah proses independen! Sebagai contoh, lihat catatan kuliah ini. (Google untuk jalan acak palsu dan banyak tautan akan muncul.) Apa yang salah? Estimasi OLS biasa dan kesalahan standar didasarkan pada asumsi yang tidak benar dalam kasus jalan acak.

Berpura-pura asumsi OLS biasa berlaku dan mundur dua jalan acak independen satu sama lain umumnya akan mengarah pada regresi dengan , koefisien yang sangat signifikan, dan semuanya sepenuhnya palsu! Ketika ada jalan acak dan Anda menjalankan regresi di tingkat asumsi biasa untuk OLS dilanggar, estimasi Anda tidak konvergen sebagai , teorema limit pusat biasa tidak berlaku, dan t-statistik dan nilai-p regresi Anda meludahkan semuanya salah . $R^2$ $t \rightarrow \infty$
Jika dua variabel terkointegrasi , Anda dapat mundur satu sama lain dan estimator Anda akan bertemu lebih cepat dari regresi biasa, hasil yang dikenal sebagai super-konsistensi. Misalnya. checkout buku Waktu Seri John Cochrane online dan cari "superkonsisten."

— Matthew Gunn
sumber