Saya baru-baru ini menemukan beberapa sumber "informal" yang menunjukkan bahwa dalam beberapa keadaan, jika kita menggunakan AIC atau BIC untuk melatih model deret waktu, kita tidak perlu membagi data menjadi tes dan kereta - kita dapat menggunakan semua data untuk pelatihan. (Sumber termasuk antara lain, diskusi di posting blog Rob Hyndman di CV , presentasi dari Stanford , atau Bagian 4 dari teks ini ).
Secara khusus, mereka tampaknya menunjukkan bahwa AIC atau BIC dapat digunakan ketika kumpulan data terlalu kecil untuk memungkinkan pemisahan kereta / uji.
Komentar Rob Hyndman misalnya: "Jauh lebih efisien untuk menggunakan AIC / BIC kemudian menggunakan set tes atau CV, dan itu menjadi penting untuk seri waktu pendek di mana tidak ada cukup data untuk melakukan sebaliknya."
Namun saya tidak dapat menemukan teks atau makalah yang membahas hal ini secara terperinci.
Satu hal yang secara khusus membingungkan saya adalah bahwa AIC dan BIC cenderung ke arah validasi silang, yang berarti bahwa jika memungkinkan, mereka akan mengganti CV untuk set data besar - yang bertentangan dengan gagasan bahwa mereka berguna untuk set data kecil.
Adakah yang bisa mengarahkan saya ke diskusi formal (bab buku, makalah, tutorial) tentang ide ini?