Bisakah kita menggunakan MLE untuk memperkirakan bobot Jaringan Saraf Tiruan?

23

Saya baru mulai belajar tentang statistik dan model barang. Saat ini, pemahaman saya adalah bahwa kami menggunakan MLE untuk memperkirakan parameter terbaik untuk suatu model. Namun, ketika saya mencoba memahami cara kerja jaringan saraf, sepertinya mereka biasanya menggunakan pendekatan lain untuk memperkirakan parameter. Mengapa kita tidak menggunakan MLE atau mungkinkah menggunakan MLE sama sekali?

maximum-likelihood neural-networks

— untuk
sumber

16

Perkiraan MLE dari bobot jaringan saraf tiruan (JST) tentu saja mungkin ; memang, itu sepenuhnya khas. Untuk masalah klasifikasi, fungsi tujuan standar adalah cross-entropy, yang sama dengan log-kemungkinan negatif dari model binomial. Untuk masalah regresi, kesalahan kuadrat residual digunakan, yang sejajar dengan MLE dari regresi OLS.

Tetapi ada beberapa masalah dengan mengasumsikan bahwa sifat-sifat MLE yang bagus yang diperoleh dalam statistik klasik juga berlaku untuk MLEs dari jaringan saraf.

Ada masalah umum dengan estimasi JST: ada banyak solusi simetris untuk ANN single-layer. Membalikkan tanda-tanda bobot untuk lapisan tersembunyi, dan membalikkan tanda-tanda parameter aktivasi lapisan tersembunyi keduanya memiliki kemungkinan yang sama. Selain itu, Anda dapat mengubah salah satu node tersembunyi dan permutasi ini juga memiliki kemungkinan yang sama. Ini konsekuensial sejauh Anda harus mengakui bahwa Anda melepaskan identitas. Namun, jika pengidentifikasian tidak penting, maka Anda dapat dengan mudah menerima bahwa solusi alternatif ini hanya refleksi dan / atau permutasi satu sama lain.

Ini berbeda dengan penggunaan klasik MLE dalam statistik, seperti regresi OLS: masalah OLS adalah cembung, dan benar-benar cembung ketika matriks desain peringkat penuh. Convexity yang kuat menyiratkan bahwa ada minimizer tunggal yang unik.
JST akan cenderung menyesuaikan data saat menggunakan solusi yang tidak dibatasi. Bobot akan cenderung berpacu jauh dari titik asal ke nilai besar yang tidak masuk akal yang tidak menggeneralisasi dengan baik atau memprediksi data baru dengan banyak akurasi. Memberlakukan pembusukan berat badan atau metode regularisasi lainnya memiliki efek menyusut estimasi berat menjadi nol. Ini tidak harus menyelesaikan masalah ketidakpastian dari (1), tetapi dapat meningkatkan generalisasi jaringan.
Fungsi kerugian adalah nonconvex dan optimisasi dapat menemukan solusi optimal secara lokal yang tidak optimal secara global . Atau mungkin solusi ini adalah poin pelana, di mana beberapa metode optimasi terhenti. Hasil dalam makalah ini menemukan bahwa metode estimasi modern menghindari masalah ini.
Dalam pengaturan statistik klasik, metode kecocokan hukuman seperti jaring elastis, regularisasi atau dapat menjadikan cembung sebagai masalah kekurangan peringkat (yaitu non-cembung). Fakta ini tidak mencakup pengaturan jaringan saraf, karena masalah permutasi dalam (1). Bahkan jika Anda membatasi norma parameter Anda, mengubah bobot atau membalik tanda secara simetris tidak akan mengubah norma vektor parameter; juga tidak akan mengubah kemungkinan. Oleh karena itu kerugian akan tetap sama untuk model yang diijinkan atau direfleksikan dan model tersebut masih tidak teridentifikasi. $L^1$ $L^2$

— Sycorax berkata Reinstate Monica
sumber

2

Saya mohon berbeda dengan apa yang Anda katakan. Minima lokal berbeda yang timbul dari simetri semuanya memiliki kualitas yang sama, jadi Anda tidak perlu khawatir tentang itu sama sekali. Apa yang mungkin ingin Anda katakan adalah bahwa JST tidak memiliki fungsi kehilangan cembung, yang membuat optimisasi lebih terlibat dan tidak menjamin menemukan optimum global. Namun, ada beberapa bukti baru-baru ini bahwa JST sebenarnya tidak memiliki banyak masalah minimum lokal, tetapi lebih pada masalah sadel. Lihat misalnya arxiv.org/abs/1412.6544 .

— bayerj

11

Dalam masalah klasifikasi, memaksimalkan kemungkinan adalah cara paling umum untuk melatih jaringan saraf (baik model yang diawasi maupun yang tidak diawasi).

Dalam praktiknya, kami biasanya meminimalkan kemungkinan log negatif (MLE ekuivalen). Satu-satunya kendala untuk menggunakan log-likelihood negatif adalah memiliki layer output yang dapat diartikan sebagai distribusi probabilitas. Lapisan output softmax biasanya digunakan untuk melakukannya. Perhatikan bahwa dalam komunitas jaringan saraf, kemungkinan log negatif kadang-kadang disebut sebagai entropi silang. Istilah pengaturan tentu saja dapat ditambahkan (dan kadang-kadang dapat ditafsirkan sebagai distribusi sebelumnya atas parameter, dalam hal ini kami sedang mencari maksimum a posteriori ( MAP )).

— AdeB
sumber