Ketika mencoba untuk memilih di antara berbagai model atau sejumlah fitur untuk disertakan, katakan prediksi saya dapat memikirkan dua pendekatan.
- Membagi data menjadi pelatihan dan set tes. Lebih baik lagi, gunakan bootstrap atau k-fold cross-validation. Latihlah set latihan setiap kali dan hitung kesalahan dari set tes. Plot test error vs. jumlah parameter. Biasanya, Anda mendapatkan sesuatu seperti ini:
- Hitung kemungkinan model dengan mengintegrasikan nilai-nilai parameter. yaitu, menghitung , dan memplotnya dengan jumlah parameter. Kami kemudian mendapatkan sesuatu seperti ini:
Jadi pertanyaan saya adalah:
- Apakah pendekatan ini cocok untuk menyelesaikan masalah ini (memutuskan berapa banyak parameter untuk dimasukkan dalam model Anda, atau memilih di antara sejumlah model)?
- Apakah mereka setara? Mungkin tidak. Apakah mereka akan memberikan model optimal yang sama di bawah asumsi atau dalam praktik tertentu?
- Selain perbedaan filosofis yang biasa dalam menentukan pengetahuan sebelumnya dalam model Bayesian dll., Apa pro dan kontra dari setiap pendekatan? Yang mana yang akan Anda pilih?
Pembaruan: Saya juga menemukan pertanyaan terkait tentang membandingkan AIC dan BIC. Tampaknya metode 1 saya secara asimptotik setara dengan AIC dan metode 2 secara asimptotik terkait dengan BIC. Tetapi saya juga membaca di sana bahwa BIC setara dengan Leave-One-Out CV. Itu berarti bahwa kesalahan pelatihan minimum dan Bayesian Likelihood maksimum adalah setara di mana LOO CV setara dengan K-fold CV. Sebuah makalah yang mungkin sangat menarik " Sebuah teori asimptotik untuk pemilihan model linear " oleh Jun Shao berkaitan dengan masalah ini.