Misalkan saya memiliki panel variabel penjelas , untuk , , serta vektor variabel dependen hasil biner . Jadi hanya diamati pada waktu akhir dan tidak pada waktu sebelumnya. Kasus yang sepenuhnya umum adalah memiliki beberapa untuk untuk setiap unit pada setiap waktu , tetapi mari kita fokus pada kasus untuk singkatnya. i = 1 . . . N t = 1 . . . T Y i T Y T X i j t j = 1 ... K i t K = 1
Aplikasi dari pasangan "tidak seimbang" dengan variabel penjelas temporal yang berkorelasi adalah misalnya (harga saham harian, dividen triwulanan), (laporan cuaca harian, badai tahunan) atau (fitur posisi catur setelah setiap gerakan, hasil win / loss di akhir pertandingan).
Saya tertarik pada (mungkin non-linear) koefisien regresi untuk melakukan prediksi dari , mengetahui bahwa dalam data pelatihan, mengingat pengamatan awal untuk , itu mengarah ke akhir hasil X i t t < T Y i T
Berasal dari latar belakang ekonometrika, saya belum melihat banyak pemodelan regresi diterapkan pada data tersebut. OTOH, saya telah melihat teknik pembelajaran mesin berikut yang diterapkan pada data tersebut:
- melakukan pembelajaran terawasi pada seluruh kumpulan data, misalnya meminimalkan
dengan hanya mengekstrapolasi / memasukkan diamati ke semua poin sebelumnya dalam waktu
Ini terasa "salah" karena tidak akan memperhitungkan korelasi temporal antara berbagai titik waktu.
- melakukan pembelajaran penguatan seperti perbedaan temporal dengan parameter pembelajaran dan parameter diskon , dan pemecahan secara rekursif untuk melalui back-propagation mulai dariλ β t t = T
dengan gradien sehubungan dengan . f ( ) β
Ini tampaknya lebih "benar" karena memperhitungkan struktur temporal, tetapi parameter dan adalah sejenis "ad hoc".λ
Pertanyaan : apakah ada literatur tentang bagaimana memetakan teknik pembelajaran yang diawasi / diperkuat ini ke dalam kerangka kerja regresi seperti yang digunakan dalam statistik / ekonometrik klasik? Secara khusus, saya ingin dapat memperkirakan parameter dalam "one go" (yaitu untuk semua secara bersamaan) dengan melakukan kuadrat-terkecil (non-linier) atau kemungkinan maksimum pada model seperti t = 1 ... T
Saya juga tertarik untuk mengetahui apakah perbedaan temporal belajar meta-parameter dan dapat dipulihkan dari formulasi kemungkinan maksimum.λ