Regresi time series dengan data yang tumpang tindih

Saya melihat model regresi yang mengalami kemunduran pengembalian indeks saham Year-on-Year pada pengembalian yang terlambat (12 bulan) dari indeks saham yang sama, spread kredit (perbedaan antara rata-rata bulanan obligasi bebas risiko dan obligasi korporasi hasil), Tingkat Inflasi tahunan dan indeks produksi industri tahunan.

Kelihatannya demikian (meskipun Anda akan mengganti data khusus ke India dalam kasus ini):

SP500YOY(T) = a + b1*SP500YOY(T-12) + b2*CREDITSPREAD(T) +    
b4*INDUSTRIALPRODUCTION(T+2) + b3*INFLATION(T+2) + b4*INFLATIONASYMM(T+2)

SP500YOY adalah pengembalian tahun-ke-tahun untuk indeks SP500 Untuk menghitungnya, rata-rata bulanan nilai-nilai SP500 dihitung dan kemudian dikonversi menjadi pengembalian tahun-ke-tahun untuk setiap bulan (yaitu Jan'10-Jan'11, Feb'10- Feb'11, Mar'10-Mar'11,.). Di sisi variabel penjelas, nilai SP500YOY 12 bulan lagged digunakan bersama dengan CREDITSPREAD pada waktu T dan INFLASI dan PRODUKSI INDUSTRI dua periode DEPAN. INFLATIONASYMM adalah boneka untuk apakah Inflasi di atas nilai ambang batas 5,0%. Indeks dalam tanda kurung menunjukkan indeks waktu untuk setiap variabel.

Ini diperkirakan dengan regresi linier OLS standar. Untuk menggunakan model ini untuk meramalkan pengembalian SP500 1,2 dan 3 bulan ke depan, seseorang harus menghasilkan prakiraan 3,4 dan 5 bulan ke depan untuk Inflasi dan Indeks Produksi Industri. Perkiraan ini dilakukan setelah memasang model ARIMA untuk masing-masing dari keduanya secara individual. Perkiraan CreditSpread untuk 1,2 dan 3 bulan ke depan hanya dimasukkan sebagai perkiraan mental.

Saya ingin tahu apakah regresi linear OLS ini benar / salah, efisien / tidak efisien, atau praktik statistik yang berlaku secara umum.

Masalah pertama yang saya lihat adalah menggunakan data yang tumpang tindih. yaitu nilai harian indeks saham rata-rata setiap bulan, dan kemudian digunakan untuk menghitung pengembalian tahunan yang diperpanjang setiap bulan. Ini harus membuat istilah kesalahan autokorelasi. Saya akan berpikir bahwa seseorang harus menggunakan beberapa 'koreksi' pada baris-baris berikut ini:

Penaksir kovarians konsisten heteroskedastisitas White
Penduga heteroskedastisitas dan autokorelasi konsisten (HAC) Newey & Barat
versi heteroscedasticity-konsisten Hansen & Hodrick

Apakah benar-benar masuk akal untuk menerapkan regresi linier OLS standar (tanpa koreksi apa pun) pada data yang tumpang tindih, dan terlebih lagi, gunakan ramalan ARIMA 3-periode ke depan untuk variabel penjelas untuk digunakan dalam regresi linier OLS asli untuk memperkirakan SP500YOY? Saya belum pernah melihat bentuk seperti itu sebelumnya, dan karenanya tidak bisa benar-benar menilai itu, tanpa kecuali mengoreksi penggunaan pengamatan yang tumpang tindih.

regression time-series autocorrelation

— Vishal Belsare
sumber

Tolong jangan posting silang .

— Joshua Ulrich

Berikut adalah beberapa artikel yang berhubungan dengan subjek ini:

Britten-Jones dan Neuberger, Peningkatan inferensi dan estimasi dalam regresi dengan pengamatan yang tumpang tindih

Harri & Brorsen, Masalah Data Yang Tumpang tindih

— R_Coholic
sumber

Tidak terlalu jelas dari makalah ini bagaimana menerapkan koreksi ini dalam praktiknya. Apakah ada langkah-langkah yang lebih praktis atau tutorial di suatu tempat?

— rinspy

@rinspy Lihat quant.stackexchange.com/questions/35216/… untuk beberapa kode tentang Hansen & Hodrick

— Candamir

Bisakah Anda memberikan ringkasan informasi dalam artikel ini & bagaimana mereka memberikan resolusi untuk pertanyaan?

— gung - Reinstate Monica