Saya mencoba memanfaatkan regresi RF untuk membuat prediksi tentang kinerja pabrik kertas.
Saya memiliki data menit demi menit untuk input (laju dan jumlah bubur kayu masuk dll ...) serta untuk kinerja mesin (kertas yang diproduksi, daya yang ditarik oleh mesin) dan saya ingin membuat prediksi 10 menit di depan pada variabel kinerja.
Saya punya data 12 bulan, jadi pisahkan menjadi 11 bulan untuk set pelatihan, dan bulan terakhir untuk pengujian.
Sejauh ini saya telah membuat 10 fitur baru yang nilai lagged oleh 1-10 menit untuk masing-masing variabel kinerja, dan menggunakannya serta input untuk membuat prediksi. Kinerja pada set tes sudah cukup bagus (sistemnya cukup dapat diprediksi), tapi saya khawatir saya kehilangan sesuatu dalam pendekatan saya.
Sebagai contoh, dalam makalah ini , penulis menyatakan pendekatan mereka dalam menguji kemampuan prediktif model hutan acak mereka:
Simulasi dilanjutkan dengan menambahkan secara iteratif data minggu baru, melatih model baru berdasarkan data yang diperbarui, dan memprediksi jumlah wabah untuk minggu berikutnya
Apa bedanya dengan menggunakan data 'nanti' dalam rangkaian waktu sebagai pengujian? Haruskah saya memvalidasi model regresi RF saya dengan pendekatan ini serta pada set data pengujian? Selain itu, apakah pendekatan 'autoregresif' semacam ini untuk regresi hutan acak berlaku untuk deret waktu, dan apakah saya perlu membuat banyak variabel yang tertinggal ini jika saya tertarik dengan prediksi 10 menit di masa mendatang?