Bagaimana AIC atau BIC dapat digunakan sebagai ganti dari train / test split?

Saya baru-baru ini menemukan beberapa sumber "informal" yang menunjukkan bahwa dalam beberapa keadaan, jika kita menggunakan AIC atau BIC untuk melatih model deret waktu, kita tidak perlu membagi data menjadi tes dan kereta - kita dapat menggunakan semua data untuk pelatihan. (Sumber termasuk antara lain, diskusi di posting blog Rob Hyndman di CV , presentasi dari Stanford , atau Bagian 4 dari teks ini ).

Secara khusus, mereka tampaknya menunjukkan bahwa AIC atau BIC dapat digunakan ketika kumpulan data terlalu kecil untuk memungkinkan pemisahan kereta / uji.

Komentar Rob Hyndman misalnya: "Jauh lebih efisien untuk menggunakan AIC / BIC kemudian menggunakan set tes atau CV, dan itu menjadi penting untuk seri waktu pendek di mana tidak ada cukup data untuk melakukan sebaliknya."

Namun saya tidak dapat menemukan teks atau makalah yang membahas hal ini secara terperinci.

Satu hal yang secara khusus membingungkan saya adalah bahwa AIC dan BIC cenderung ke arah validasi silang, yang berarti bahwa jika memungkinkan, mereka akan mengganti CV untuk set data besar - yang bertentangan dengan gagasan bahwa mereka berguna untuk set data kecil.

Adakah yang bisa mengarahkan saya ke diskusi formal (bab buku, makalah, tutorial) tentang ide ini?

— Skander H.
sumber

Dalam bab 5.5 buku ini , mereka membahas bagaimana banyak kriteria pemilihan model ini muncul. Mereka mulai dengan kriteria FPE Akaike untuk model AR, dan kemudian membahas AIC, AICc dan BIC. Mereka berjalan melalui derivasi cukup menyeluruh.

Apa kesamaan ini adalah bahwa mereka menyelidiki apa yang terjadi ketika Anda menggunakan beberapa data dalam sampel yang diamati untuk memperkirakan parameter model, dan kemudian melihat beberapa fungsi kerugian (rata-rata kesalahan prediksi kuadrat atau divergensi KL) pada beberapa yang tidak teramati / data luar sampel hipotetis $\{X_t\}$ $\{Y_t\}$ yang timbul dari penggunaan model estimasi pada data baru ini. Gagasan utama adalah bahwa a) Anda mengambil ekspektasi sehubungan dengan semua data, dan 2) menggunakan beberapa hasil asimptotik untuk mendapatkan ekspresi untuk beberapa harapan. Kuantitas dari (1) memberi Anda kinerja keseluruhan yang diharapkan, tetapi (2) mengasumsikan Anda memiliki lebih banyak data daripada yang sebenarnya Anda miliki. Saya bukan ahli, tetapi saya berasumsi bahwa pendekatan cross-validasi menargetkan pengukuran kinerja ini juga; tetapi alih-alih mempertimbangkan data out-of-sample hipotetis, mereka menggunakan data nyata yang terpisah dari data pelatihan.

Contoh paling sederhana adalah kriteria FPE. Asumsikan Anda memperkirakan model AR Anda pada seluruh data (seperti tes-set), dan dapatkan . Maka kerugian yang diharapkan pada data yang tidak teramati (ini hipotetis, tidak terpecah seperti dalam cross-validation) adalah $\{\hat{\phi}_i\}_i$ $\{Y_t\}$

\begin{aligned} E (Y_{n + 1} - {\hat{ϕ}}_{1} Y_{n} - \dots - {\hat{ϕ}}_{p} Y_{n + 1 - p})^{2} \\ = E (Y_{n + 1} - ϕ_{1} Y_{n} - \dots - ϕ_{p} Y_{n + 1 - p} - \\ ({\hat{ϕ}}_{1} - ϕ_{1}) Y_{n} - \dots - ({\hat{ϕ}}_{p} - ϕ_{p}) Y_{n + 1 - p})^{2} \\ = E (Z_{t} + ({\hat{ϕ}}_{1} - ϕ_{1}) Y_{n} - \dots - ({\hat{ϕ}}_{p} - ϕ_{p}) Y_{n + 1 - p})^{2} \\ = σ^{2} + E [E [(({\hat{ϕ}}_{1} - ϕ_{1}) Y_{n} - \dots - ({\hat{ϕ}}_{p} - ϕ_{p}) Y_{n + 1 - p})^{2} | {X_{t}}]] \\ = σ^{2} + E [\sum_{i = 1}^{p} \sum_{j = 1}^{p} ({\hat{ϕ}}_{i} - ϕ_{i}) ({\hat{ϕ}}_{j} - ϕ_{j}) E [Y_{n + 1 - i} Y_{n + 1 - j} | {X_{t}}]] \\ = σ^{2} + E [({\hat{ϕ}}_{p} - ϕ_{p})^{'} Γ_{p} ({\hat{ϕ}}_{p} - ϕ_{p})] \\ (typo in book: n^{- 1 / 2} should be n^{1 / 2}) & \approx σ^{2} (1 + \frac{p}{n}) \\ (n {\hat{σ}}^{2} / σ^{2} approx. χ_{n - p}^{2}) & \approx \frac{n {\hat{σ}}^{2}}{n - p} (1 + \frac{p}{n}) = {\hat{σ}}^{2} \frac{n + p}{n - p} . \end{aligned}

$\begin{align*} & E(Y_{n+1} -\hat{\phi}_1Y_n -\cdots - \hat{\phi}_p Y_{n+1-p} )^2 \\ &= E(Y_{n+1} -\phi_1Y_n -\cdots - \phi_p Y_{n+1-p} - \\ & \hspace{30mm} (\hat{\phi}_1 - \phi_1)Y_n - \cdots - (\hat{\phi}_p - \phi_p) Y_{n+1-p} )^2 \\ &= E( Z_t + (\hat{\phi}_1 - \phi_1)Y_n - \cdots - (\hat{\phi}_p - \phi_p) Y_{n+1-p} )^2 \\ &= \sigma^2 + E[E[((\hat{\phi}_1 - \phi_1)Y_n - \cdots - (\hat{\phi}_p - \phi_p) Y_{n+1-p} )^2 | \{X_t\} ]] \\ &= \sigma^2 + E\left[ \sum_{i=1}^p \sum_{j=1}^p (\hat{\phi}_i - \phi_i)(\hat{\phi}_j - \phi_j)E\left[ Y_{n+1-i}Y_{n+1-j} |\{X_t\} \right] \right] \\ &= \sigma^2 + E[({\hat{\phi}}_p -{\phi}_p )' \Gamma_p ({\hat{\phi}}_p -{\phi}_p )] \\ &\approx \sigma^2 ( 1 + \frac{p}{n}) \tag{typo in book: $n^{-1/2}$ should be $n^{1/2}$} \\ &\approx \frac{n \hat{\sigma}^2}{n-p} ( 1 + \frac{p}{n}) = \hat{\sigma}^2 \frac{n+p}{n-p} \tag{$n \hat{\sigma}^2/\sigma^2$ approx. $\chi^2_{n-p}$ }. \\ \end{align*}$

Saya tidak tahu ada makalah dari atas kepala saya yang membandingkan secara empiris kinerja kriteria ini dengan teknik validasi silang. Namun buku ini memang memberi banyak sumber daya tentang bagaimana FPE, AIC, AICc dan BIC membandingkan satu sama lain.

— Taylor
sumber