Validasi silang mungkin akan baik di sini. Untuk melakukan ini, Anda membagi set data Anda menjadi 2 bagian. Anda menggunakan bagian pertama agar sesuai dengan kedua model, dan kemudian menggunakan model yang pas untuk memprediksi bagian kedua. Ini dapat dibenarkan sebagai pendekatan pendekatan Bayesian sepenuhnya untuk pemilihan model. Kami memiliki kemungkinan modelMi
p(d1d2...dN|MiI)=p(d1|MiI)×p(d2|d1MiI)×p(d3|d1d2MiI)×..
..×p(dN|d1d2...dN−1MiI)
Yang dapat dilihat secara heuristik sebagai urutan prediksi, dan kemudian belajar dari kesalahan. Anda memprediksi titik data pertama tanpa pelatihan. Kemudian Anda memprediksi titik data kedua setelah mempelajari tentang model dengan yang pertama. Kemudian Anda memprediksi titik data ke-3 setelah menggunakan dua yang pertama untuk mempelajari tentang model, dan seterusnya. Sekarang jika Anda memiliki kumpulan data yang cukup besar, maka parameter model akan ditentukan dengan baik di luar sejumlah data tertentu, dan kami akan memiliki, untuk beberapa nilai :k
p(dk+2|d1....dkdk+1MiI)≈p(dk+2|d1....dkMiI)
Model tidak dapat "belajar" lagi tentang parameter, dan pada dasarnya hanya memprediksi berdasarkan pengamatan pertama . Jadi saya akan memilih (ukuran kelompok pertama) menjadi cukup besar sehingga Anda dapat secara akurat sesuai dengan model, - titik data per parameter mungkin cukup. Anda juga ingin memilih cukup besar sehingga ketergantungan pada yang sedang diabaikan tidak membuat perkiraan tidak berguna.kk2030kdk+1...dN
Maka saya hanya akan mengevaluasi kemungkinan setiap prediksi, dan mengambil rasio mereka, ditafsirkan sebagai rasio kemungkinan. Jika rasionya sekitar , maka tidak ada model yang lebih baik dari yang lain. Jika jauh dari maka ini menunjukkan salah satu model mengungguli yang lain. rasio di bawah 5 lemah, 10 kuat, 20 sangat kuat, dan 100, menentukan (timbal balik yang sesuai untuk angka kecil).11