Saya telah menggunakan paket caret dalam R untuk membangun model prediksi untuk klasifikasi dan regresi. Caret menyediakan antarmuka terpadu untuk menyetel model hiper-parameter dengan validasi silang atau strapping boot. Misalnya, jika Anda sedang membangun model 'tetangga terdekat' yang sederhana untuk klasifikasi, berapa banyak tetangga yang harus Anda gunakan? 2? 10? 100? Caret membantu Anda menjawab pertanyaan ini dengan mengambil sampel ulang data Anda, mencoba berbagai parameter, dan kemudian menggabungkan hasilnya untuk memutuskan mana yang menghasilkan akurasi prediksi terbaik.
Saya suka pendekatan ini karena ini menyediakan metodologi yang kuat untuk memilih model hiper-parameter, dan setelah Anda memilih hiper-parameter akhir itu memberikan estimasi yang divalidasi silang tentang seberapa 'baik' modelnya, menggunakan akurasi untuk model klasifikasi dan RMSE untuk model regresi.
Sekarang saya memiliki beberapa data deret waktu yang ingin saya bangun model regresi, mungkin menggunakan hutan acak. Apa teknik yang baik untuk menilai akurasi prediksi model saya, mengingat sifat data? Jika hutan acak tidak benar-benar berlaku untuk data deret waktu, apa cara terbaik untuk membangun model ensembel yang akurat untuk analisis deret waktu?