Saya lulusan dari bisnis dan ekonomi yang saat ini belajar untuk gelar master dalam bidang teknik data. Saat mempelajari regresi linier (LR) dan kemudian analisis deret waktu (TS), sebuah pertanyaan muncul di benak saya. Mengapa membuat metode yang sama sekali baru, yaitu deret waktu (ARIMA), alih-alih menggunakan regresi linier berganda dan menambahkan variabel lagged ke dalamnya (dengan urutan lag ditentukan menggunakan ACF dan PACF)? Jadi guru menyarankan agar saya menulis sedikit esai tentang masalah ini. Saya tidak akan datang mencari bantuan dengan tangan kosong, jadi saya melakukan penelitian pada topik tersebut.
Saya sudah tahu bahwa ketika menggunakan LR, jika asumsi Gauss-Markov dilanggar, regresi OLS salah, dan bahwa ini terjadi ketika menggunakan data deret waktu (autokorelasi, dll). (pertanyaan lain tentang ini, satu asumsi GM adalah bahwa variabel independen harus terdistribusi secara normal? atau hanya variabel dependen yang tergantung pada yang independen?)
Saya juga tahu bahwa ketika menggunakan regresi lag terdistribusi, yang saya pikir saya usulkan di sini, dan menggunakan OLS untuk memperkirakan parameter, multikolinieritas antar variabel dapat (jelas) muncul, jadi perkiraan akan salah.
Dalam posting serupa tentang TS dan LR di sini, @IrishStat berkata:
... model regresi adalah kasus khusus dari Model Fungsi Transfer yang juga dikenal sebagai model regresi dinamis atau model XARMAX. Poin yang menonjol adalah bahwa identifikasi model dalam deret waktu yaitu perbedaan yang sesuai, keterlambatan X yang sesuai, struktur ARIMA yang sesuai, identifikasi yang sesuai dari struktur deterministik yang tidak ditentukan seperti Pulsa, Pergeseran level, Tren waktu lokal, Pulsa Musiman, dan penggabungan. perubahan parameter atau varians kesalahan harus dipertimbangkan.
(Saya juga membaca makalahnya di Autobox tentang Box Jenkins vs LR.) Tapi ini masih belum menyelesaikan pertanyaan saya (atau setidaknya itu tidak menjelaskan mekanisme RL dan TS yang berbeda untuk saya).
Jelas bahwa bahkan dengan variabel lagging masalah OLS muncul dan itu tidak efisien atau tidak benar, tetapi ketika menggunakan kemungkinan maksimum, apakah masalah ini tetap ada? Saya telah membaca bahwa ARIMA diperkirakan melalui kemungkinan maksimum, jadi jika LR dengan lag diperkirakan dengan ML dan bukan OLS, apakah ia menghasilkan koefisien "benar" (mari kita asumsikan bahwa kita juga memasukkan istilah kesalahan yang tertinggal, seperti MA pesanan q).
Singkatnya, apakah masalahnya OLS? Apakah masalah diselesaikan dengan menerapkan ML?