Apakah mean-squared error selalu cembung dalam konteks jaringan saraf?


9

Berbagai sumber yang saya sebutkan menyebutkan bahwa MSE itu hebat karena cembung. Tapi saya tidak mengerti caranya, terutama dalam konteks jaringan saraf.

Katakanlah kita memiliki yang berikut ini:

  • X : dataset pelatihan
  • Y : target
  • Θ : himpunan parameter modelfΘ (model jaringan saraf dengan non-linearitas)

Kemudian:

MSE(Θ)=(fΘ(X)Y)2

Mengapa fungsi kerugian ini selalu cembung? Apakah ini bergantung pada fΘ(X) ?

Jawaban:


1

Jawaban singkatnya: MSE cembung pada input dan parameternya sendiri. Tetapi pada jaringan saraf arbitrer tidak selalu cembung karena adanya non-linearitas dalam bentuk fungsi aktivasi. Sumber untuk jawaban saya ada di sini .


1

Sifat busung

f(x)xΧx1Χx2Χ0λ1

f(λx1+(1λ)x2)λf(x1)+(1λ)f(x2).

Dapat dibuktikan bahwa cembung memiliki satu minimum global. Minimum global yang unik menghilangkan jebakan yang dibuat oleh minimum lokal yang dapat terjadi dalam algoritma yang berupaya mencapai konvergensi pada minimum global, seperti minimisasi fungsi kesalahan.f(x)

Meskipun fungsi kesalahan dapat 100% andal dalam semua konteks kontinu, linear, dan banyak konteks non-linear, itu tidak berarti konvergensi pada minimum global untuk semua kemungkinan konteks non-linear.

Mean Square Error

Diberikan fungsi menggambarkan perilaku sistem ideal dan model sistem (di mana adalah vektor parameter, matriks, kubus, atau hypercube dan ), dibuat secara rasional atau melalui konvergensi (Seperti dalam pelatihan neural net), fungsi mean square error (MSE) dapat direpresentasikan sebagai berikut.s(x)a(x,p)p1nN

e(β):=N1n[a(xn)s(xn)]2

Bahan yang Anda baca mungkin tidak mengklaim bahwa atau adalah cembung terhadap , tetapi bahwa cembung sehubungan dengan dan apa pun itu. Pernyataan selanjutnya ini dapat dibuktikan untuk setiap dan berkelanjutan . a(x,p)s(x)xe(β)a(x,p)s(x)a(x,p)s(x)

Membingungkan Algoritma Konvergensi

Jika pertanyaannya adalah apakah spesifik dan metode untuk mencapai yang mendekati dalam margin konvergensi MSE yang wajar dapat dikacaukan, jawabannya adalah, "Ya." Itu sebabnya MSE bukan satu-satunya model kesalahan.a(x,p)s(x)a(x,p)

Ringkasan

Cara terbaik meringkas adalah bahwa harus didefinisikan atau dipilih dari satu set model kesalahan stok cembung berdasarkan pada pengetahuan berikut.e(β)

  • Properti sistem yang diketahuis(x)
  • Definisi model aproksimasia(x,p)
  • Tensor digunakan untuk menghasilkan keadaan berikutnya dalam urutan konvergen

Himpunan model kesalahan stok cembung tentu termasuk model MSE karena kesederhanaan dan penghematan komputasi.


Jadi jawaban singkatnya adalah MSE. Theta selalu cembung. Meskipun Feedforard (X, Theta) yang mungkin non-cembung?
user74211

Nah, @ user74211, komentar itu sebenarnya tidak menjawab pertanyaan. Pertanyaan yang secara khusus diajukan BAGAIMANA kesalahan persegi berarti selalu bisa cembung jika fungsi yang tidak berlaku. Komentar Anda adalah himpunan bagian dari pernyataan dalam pertanyaan, tanpa penjelasan yang dicari.
FauChristian
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.