AIC dan BIC digunakan, misalnya dalam regresi bertahap. Mereka sebenarnya bagian dari kelas "heuristik" yang lebih besar, yang juga digunakan. Misalnya DIC (Deviance Information Criterion) sering digunakan dalam pemilihan Model Bayesian.
Namun, mereka pada dasarnya "heuristik". Meskipun dapat ditunjukkan, bahwa baik AIC dan BIC bertemu secara asimptotik menuju pendekatan cross-validation (saya pikir AIC mengarah ke cuti-keluar-keluar CV, dan BIC menuju beberapa pendekatan lain, tapi saya tidak yakin), mereka diketahui masing-masing kurang memberi penalti dan memberi penalti berlebihan. Yaitu menggunakan AIC Anda akan sering mendapatkan model, yang lebih rumit dari yang seharusnya, sedangkan dengan BIC Anda sering mendapatkan model yang terlalu sederhana.
Karena keduanya terkait dengan CV, CV sering merupakan pilihan yang lebih baik, yang tidak menderita masalah ini.
Lalu akhirnya ada masalah # parameter yang diperlukan untuk BIC dan AIC. Dengan penaksir fungsi umum (mis. KNN) pada input bernilai riil, dimungkinkan untuk "menyembunyikan" parameter, yaitu untuk membangun bilangan real yang berisi informasi yang sama dengan dua bilangan real (pikirkan misalnya memotong angka-angka). Dalam hal ini, berapa jumlah parameter yang sebenarnya? Di sisi lain, dengan model yang lebih rumit, Anda mungkin memiliki kendala pada parameter Anda, misalnya Anda hanya dapat memuat parameter sehingga θ1>θ2 (lihat misalnya di sini ). Atau Anda mungkin tidak dapat diidentifikasi, dalam hal ini beberapa nilai parameter benar-benar memberikan model yang sama. Dalam semua kasus ini, penghitungan parameter tidak memberikan estimasi yang sesuai.
Karena banyak algoritma pembelajaran mesin kontemporer menunjukkan sifat-sifat ini (yaitu aproksimasi universal, jumlah parameter yang tidak jelas, tidak dapat diidentifikasi), AIC dan BIC kurang berguna untuk model ini, daripada yang mungkin tampak pada pandangan pertama.
EDIT :
Beberapa poin lagi yang bisa diklarifikasi:
- Tampaknya saya salah untuk mempertimbangkan pemetaan dengan menyisipkan digit satu penambangan antara R→RN (lihat sini ). Namun, perincian mengapa ini bukan sebuah peninggalan agak sulit untuk dipahami. Namun, kita sebenarnya tidak membutuhkan bijih agar ide ini berfungsi (perkiraan cukup).
- Menurut bukti oleh Penyedia (1877) harus ada suatu penipisan antara R→RN . Meskipun penistaan ini tidak dapat didefinisikan secara eksplisit, keberadaannya dapat dibuktikan (tetapi ini membutuhkan aksioma pilihan yang tidak terbukti). Bijection ini masih dapat digunakan dalam model teoritis (mungkin tidak mungkin untuk benar-benar mengimplementasikan model ini di komputer), untuk membongkar parameter tunggal ke dalam jumlah parameter yang sewenang-wenang.
- Kami tidak benar-benar membutuhkan pemetaan antara R→RN untuk menjadi bujukan. Fungsi surjektif R→RN cukup untuk membongkar beberapa parameter dari satu parameter. Surjections tersebut dapat ditunjukkan ada sebagai batas urutan fungsi lain (disebut kurva mengisi ruang , misalnya kurva Peano ).
- Karena pembuktian oleh Cantor tidak konstruktif (itu hanya membuktikan keberadaan penambangan tanpa memberikan contoh), atau kurva mengisi ruang (karena mereka hanya ada sebagai batas objek konstruktif dan karenanya tidak konstruktif sendiri), argumen I dibuat hanyalah bukti teoretis. Secara teori, kita bisa terus menambahkan parameter ke model untuk mengurangi BIC di bawah nilai yang diinginkan (pada set pelatihan). Namun, dalam implementasi model aktual kita harus memperkirakan kurva ruang-mengisi, sehingga kesalahan perkiraan dapat menghalangi kita untuk benar-benar melakukannya (saya belum benar-benar menguji ini).
- Karena semua ini memerlukan aksioma pilihan, buktinya menjadi tidak valid jika Anda tidak menerima aksioma ini (walaupun sebagian besar ahli matematika melakukannya). Itu berarti, dalam matematika konstruktif ini mungkin tidak mungkin, tetapi saya tidak tahu apa peran matematika konstruktif untuk statistik.
- NRN+1RNRNRN. Namun, ini hanya argumen informal, saya tidak tahu ada perlakuan formal terhadap gagasan "kompleksitas" ini.