Perkiraan MLE dari bobot jaringan saraf tiruan (JST) tentu saja mungkin ; memang, itu sepenuhnya khas. Untuk masalah klasifikasi, fungsi tujuan standar adalah cross-entropy, yang sama dengan log-kemungkinan negatif dari model binomial. Untuk masalah regresi, kesalahan kuadrat residual digunakan, yang sejajar dengan MLE dari regresi OLS.
Tetapi ada beberapa masalah dengan mengasumsikan bahwa sifat-sifat MLE yang bagus yang diperoleh dalam statistik klasik juga berlaku untuk MLEs dari jaringan saraf.
Ada masalah umum dengan estimasi JST: ada banyak solusi simetris untuk ANN single-layer. Membalikkan tanda-tanda bobot untuk lapisan tersembunyi, dan membalikkan tanda-tanda parameter aktivasi lapisan tersembunyi keduanya memiliki kemungkinan yang sama. Selain itu, Anda dapat mengubah salah satu node tersembunyi dan permutasi ini juga memiliki kemungkinan yang sama. Ini konsekuensial sejauh Anda harus mengakui bahwa Anda melepaskan identitas. Namun, jika pengidentifikasian tidak penting, maka Anda dapat dengan mudah menerima bahwa solusi alternatif ini hanya refleksi dan / atau permutasi satu sama lain.
Ini berbeda dengan penggunaan klasik MLE dalam statistik, seperti regresi OLS: masalah OLS adalah cembung, dan benar-benar cembung ketika matriks desain peringkat penuh. Convexity yang kuat menyiratkan bahwa ada minimizer tunggal yang unik.
JST akan cenderung menyesuaikan data saat menggunakan solusi yang tidak dibatasi. Bobot akan cenderung berpacu jauh dari titik asal ke nilai besar yang tidak masuk akal yang tidak menggeneralisasi dengan baik atau memprediksi data baru dengan banyak akurasi. Memberlakukan pembusukan berat badan atau metode regularisasi lainnya memiliki efek menyusut estimasi berat menjadi nol. Ini tidak harus menyelesaikan masalah ketidakpastian dari (1), tetapi dapat meningkatkan generalisasi jaringan.
Fungsi kerugian adalah nonconvex dan optimisasi dapat menemukan solusi optimal secara lokal yang tidak optimal secara global . Atau mungkin solusi ini adalah poin pelana, di mana beberapa metode optimasi terhenti. Hasil dalam makalah ini menemukan bahwa metode estimasi modern menghindari masalah ini.
Dalam pengaturan statistik klasik, metode kecocokan hukuman seperti jaring elastis, regularisasi atau dapat menjadikan cembung sebagai masalah kekurangan peringkat (yaitu non-cembung). Fakta ini tidak mencakup pengaturan jaringan saraf, karena masalah permutasi dalam (1). Bahkan jika Anda membatasi norma parameter Anda, mengubah bobot atau membalik tanda secara simetris tidak akan mengubah norma vektor parameter; juga tidak akan mengubah kemungkinan. Oleh karena itu kerugian akan tetap sama untuk model yang diijinkan atau direfleksikan dan model tersebut masih tidak teridentifikasi.L.1L.2