Menggabungkan ReLU, varian bocor 1 parameter-hyper , dan varian dengan parametrization dinamis selama pembelajaran membingungkan dua hal berbeda:
- Perbandingan antara ReLU dengan varian bocor terkait erat dengan apakah ada kebutuhan, dalam kasus ML tertentu di tangan, untuk menghindari saturasi - Saturasi adalah hilangnya sinyal baik nol gradien 2 atau dominasi kebisingan kacau yang timbul dari digital pembulatan 3 .
- Perbandingan antara aktivasi pelatihan-dinamis (disebut parametrik dalam literatur) dan aktivasi pelatihan-statis harus didasarkan pada apakah karakteristik aktivasi non-linier atau tidak mulus memiliki nilai terkait dengan laju konvergensi 4 .
Alasan mengapa ReLU tidak pernah bersifat parametrik adalah karena membuatnya demikian akan menjadi berlebihan. Dalam domain negatif, itu adalah nol konstan. Dalam domain non-negatif, turunannya konstan. Karena vektor input aktivasi sudah dilemahkan dengan produk matriks-vektor (di mana matriks, kubus, atau hiper-kubus berisi parameter atenuasi), tidak ada tujuan yang berguna dalam menambahkan parameter untuk memvariasikan turunan konstan untuk domain non-negatif. .
Ketika ada kelengkungan dalam aktivasi, tidak lagi benar bahwa semua koefisien aktivasi adalah redundan sebagai parameter. Nilai-nilai mereka dapat sangat mengubah proses pelatihan dan dengan demikian kecepatan dan keandalan konvergensi.
Untuk jaringan yang secara substansial dalam, redundansi muncul kembali, dan ada bukti mengenai hal ini, baik secara teori maupun praktik dalam literatur.
- Dalam istilah aljabar, perbedaan antara ReLU dan aktivasi dinamis parametrik yang diturunkan darinya mendekati nol ketika kedalaman (dalam jumlah lapisan) mendekati tak terhingga.
- Dalam istilah deskriptif, ReLU dapat secara akurat memperkirakan fungsi dengan kelengkungan 5 jika diberi jumlah lapisan yang cukup untuk melakukannya.
Itulah sebabnya varietas ELU, yang menguntungkan untuk mencegah masalah saturasi yang disebutkan di atas untuk jaringan yang lebih dangkal tidak digunakan untuk yang lebih dalam.
Jadi seseorang harus memutuskan dua hal.
- Apakah aktivasi parametrik bermanfaat sering didasarkan pada eksperimen dengan beberapa sampel dari populasi statistik. Tetapi tidak perlu bereksperimen sama sekali jika kedalaman lapisannya tinggi.
- Apakah varian yang bocor bernilai ada hubungannya dengan rentang numerik yang dijumpai selama propagasi balik. Jika gradien menjadi semakin kecil selama perbanyakan kembali pada titik mana pun selama pelatihan, bagian konstan dari kurva aktivasi mungkin bermasalah. Sedemikian scase salah satu fungsi halus atau RelU bocor dengan itu dua lereng tidak nol dapat memberikan solusi yang memadai.
Singkatnya, pilihan itu tidak pernah menjadi pilihan kenyamanan.
Catatan kaki
[1] Parameter-hiper adalah parameter yang memengaruhi pensinyalan melalui lapisan yang bukan bagian dari redaman input untuk lapisan itu. Bobot redaman adalah parameter. Parametrization lainnya adalah di set parameter hiper. Ini mungkin termasuk tingkat pembelajaran, peredam frekuensi tinggi dalam propagasi belakang, dan berbagai kontrol pembelajaran lainnya yang ditetapkan untuk seluruh lapisan, jika tidak seluruh jaringan.
[2] Jika gradiennya nol, maka tidak mungkin ada penyesuaian cerdas dari parameter karena arah penyesuaian tidak diketahui, dan besarnya harus nol. Belajar berhenti.
[3] Jika noise kacau, yang dapat muncul ketika CPU membulatkan nilai yang sangat kecil ke representasi digital terdekatnya, mendominasi sinyal koreksi yang dimaksudkan untuk merambat kembali ke lapisan, maka koreksi menjadi omong kosong dan pembelajaran berhenti.
[4] Laju konvergensi adalah ukuran kecepatan (baik relatif terhadap mikrodetik atau relatif terhadap indeks iterasi algoritma) di mana hasil pembelajaran (perilaku sistem) mendekati apa yang dianggap cukup baik. Itu biasanya kedekatan tertentu dengan beberapa kriteria penerimaan formal untuk konvergensi (pembelajaran).
[5] Fungsi dengan lengkungan adalah fungsi yang tidak divisualisasikan sebagai lurus atau rata. Parabola memiliki kelengkungan. Garis lurus tidak. Permukaan telur memiliki kelengkungan. Sebuah bidang datar yang sempurna tidak. Secara matematis, jika salah satu elemen fungsi Goni adalah nol, fungsi tersebut memiliki kelengkungan.