Mengapa kriteria informasi Akaike lebih banyak digunakan dalam pembelajaran mesin?

Saya baru saja menemukan "kriteria informasi Akaike", dan saya melihat sejumlah besar literatur tentang pemilihan model (juga hal-hal seperti BIC tampaknya ada).

Mengapa metode pembelajaran mesin kontemporer tidak memanfaatkan kriteria pemilihan model BIC dan AIC ini?

— gema
sumber

karena tidak ada yang menghitung kemungkinan?

— Aksakal

Apa yang Anda maksud dengan "metode pembelajaran mesin kontemporer"? Sejauh saya menggunakan AIC dan BIC sering digunakan.

— Ferdi

Juga mengapa -1? Ingatlah bahwa tidak ada pertanyaan bodoh - setiap pertanyaan mencoba menerangi alam semesta

— gema

@echo: Saya tidak melakukan downvote, tapi saya pikir pertanyaan Anda akan ditingkatkan jika Anda dapat mencari / mendukung klaim utama (bahwa metode pembelajaran mesin memanfaatkan kriteria pemilihan model BIC dan AIC ini)

— user603

@Aksakal Terima kasih. Saya pikir lebih baik jika pertanyaan-pertanyaan yang dibangun di sekitar klaim luas dapat menjadi sumber klaim itu. Maksud saya sebagai aturan umum.

— user603

AIC dan BIC digunakan, misalnya dalam regresi bertahap. Mereka sebenarnya bagian dari kelas "heuristik" yang lebih besar, yang juga digunakan. Misalnya DIC (Deviance Information Criterion) sering digunakan dalam pemilihan Model Bayesian.

Namun, mereka pada dasarnya "heuristik". Meskipun dapat ditunjukkan, bahwa baik AIC dan BIC bertemu secara asimptotik menuju pendekatan cross-validation (saya pikir AIC mengarah ke cuti-keluar-keluar CV, dan BIC menuju beberapa pendekatan lain, tapi saya tidak yakin), mereka diketahui masing-masing kurang memberi penalti dan memberi penalti berlebihan. Yaitu menggunakan AIC Anda akan sering mendapatkan model, yang lebih rumit dari yang seharusnya, sedangkan dengan BIC Anda sering mendapatkan model yang terlalu sederhana.

Karena keduanya terkait dengan CV, CV sering merupakan pilihan yang lebih baik, yang tidak menderita masalah ini.

Lalu akhirnya ada masalah # parameter yang diperlukan untuk BIC dan AIC. Dengan penaksir fungsi umum (mis. KNN) pada input bernilai riil, dimungkinkan untuk "menyembunyikan" parameter, yaitu untuk membangun bilangan real yang berisi informasi yang sama dengan dua bilangan real (pikirkan misalnya memotong angka-angka). Dalam hal ini, berapa jumlah parameter yang sebenarnya? Di sisi lain, dengan model yang lebih rumit, Anda mungkin memiliki kendala pada parameter Anda, misalnya Anda hanya dapat memuat parameter sehingga $\theta_1 > \theta_2$ (lihat misalnya di sini ). Atau Anda mungkin tidak dapat diidentifikasi, dalam hal ini beberapa nilai parameter benar-benar memberikan model yang sama. Dalam semua kasus ini, penghitungan parameter tidak memberikan estimasi yang sesuai.

Karena banyak algoritma pembelajaran mesin kontemporer menunjukkan sifat-sifat ini (yaitu aproksimasi universal, jumlah parameter yang tidak jelas, tidak dapat diidentifikasi), AIC dan BIC kurang berguna untuk model ini, daripada yang mungkin tampak pada pandangan pertama.

EDIT :

Beberapa poin lagi yang bisa diklarifikasi:

Tampaknya saya salah untuk mempertimbangkan pemetaan dengan menyisipkan digit satu penambangan antara $\mathbb{R}\rightarrow\mathbb{R}^N$ (lihat sini ). Namun, perincian mengapa ini bukan sebuah peninggalan agak sulit untuk dipahami. Namun, kita sebenarnya tidak membutuhkan bijih agar ide ini berfungsi (perkiraan cukup).
Menurut bukti oleh Penyedia (1877) harus ada suatu penipisan antara $\mathbb{R}\rightarrow\mathbb{R}^N$ . Meskipun penistaan ini tidak dapat didefinisikan secara eksplisit, keberadaannya dapat dibuktikan (tetapi ini membutuhkan aksioma pilihan yang tidak terbukti). Bijection ini masih dapat digunakan dalam model teoritis (mungkin tidak mungkin untuk benar-benar mengimplementasikan model ini di komputer), untuk membongkar parameter tunggal ke dalam jumlah parameter yang sewenang-wenang.
Kami tidak benar-benar membutuhkan pemetaan antara $\mathbb{R}\rightarrow\mathbb{R}^N$ untuk menjadi bujukan. Fungsi surjektif $\mathbb{R}\rightarrow\mathbb{R}^N$ cukup untuk membongkar beberapa parameter dari satu parameter. Surjections tersebut dapat ditunjukkan ada sebagai batas urutan fungsi lain (disebut kurva mengisi ruang , misalnya kurva Peano ).
Karena pembuktian oleh Cantor tidak konstruktif (itu hanya membuktikan keberadaan penambangan tanpa memberikan contoh), atau kurva mengisi ruang (karena mereka hanya ada sebagai batas objek konstruktif dan karenanya tidak konstruktif sendiri), argumen I dibuat hanyalah bukti teoretis. Secara teori, kita bisa terus menambahkan parameter ke model untuk mengurangi BIC di bawah nilai yang diinginkan (pada set pelatihan). Namun, dalam implementasi model aktual kita harus memperkirakan kurva ruang-mengisi, sehingga kesalahan perkiraan dapat menghalangi kita untuk benar-benar melakukannya (saya belum benar-benar menguji ini).
Karena semua ini memerlukan aksioma pilihan, buktinya menjadi tidak valid jika Anda tidak menerima aksioma ini (walaupun sebagian besar ahli matematika melakukannya). Itu berarti, dalam matematika konstruktif ini mungkin tidak mungkin, tetapi saya tidak tahu apa peran matematika konstruktif untuk statistik.
$N$ $\mathbb{R}^{N+1}$ $\mathbb{R}^N$ $\mathbb{R}^N$ $\mathbb{R}^N$ . Namun, ini hanya argumen informal, saya tidak tahu ada perlakuan formal terhadap gagasan "kompleksitas" ini.

— LiKao
sumber

Peduli untuk berpaut pada posting ini stats.stackexchange.com/questions/325129/… ? Saya belum beruntung untuk sementara waktu.

— Skander H.

@LiKao Bisakah Anda mengutip referensi tentang "teknik" parameter penyembunyian, seperti halnya kasus perpotongan digit.

— horaceT

@horaceT Sayangnya saya tidak tahu makalah apa pun, yang memberikan contoh ini. Dalam makalah tentang MDL ada gagasan tentang "kompleksitas fungsional" (misalnya lpl.psy.ohio-state.edu/documents/MNP.pdf lihat eq 10). Seringkali contoh dibuat dengan parameter yang dibatasi (misalnya researchgate.net/publication/… ). Saya suka membalikkan contoh ketika membahas ini, dan menunjukkan bahwa parameter tunggal yang kompleks dapat menangkap beberapa parameter sederhana karena saya merasa lebih intuitif.

— LiKao

f_{1, 2} : R \to R^{2}

$f_{1,2}:\mathbb{R} \rightarrow \mathbb{R}^2$

f_{1, N} : R \to R^{N}

$f_{1,N}:\mathbb{R}\rightarrow \mathbb{R}^N$ . Jadi untuk model apa pun dengan

N

$N$ parameter, saya bisa menggunakan

f_{1, N}

$f_{1,N}$ untuk pertama mendapatkan

N

$N$ vektor dimensi dari parameter tunggal saya, lalu berikan vektor ini sebagai parameter ke

N

$N$ model parameter. Ini memberi saya persamaan fungsional

1

$1$ model parameter. Namun pas dengan model itu, akan sangat rumit.

— LiKao

@LiKao Ini sangat menarik. Referensi Pls mengatakan bukti "kurva pengarsipan". Saya dapat melihat bahwa parameter yang dibatasi memiliki tingkat kebebasan "kurang". Secara naif, jika f (x, y) = 0, y hanyalah fungsi dari x; Anda tinggal meletakkan g (x) di mana y berada. Tidak bisakah Anda melakukan hal serupa dengan optimasi terbatas.

— horaceT