Apa kelebihan ReLU vs LeLy LeLy dan Parametric ReLU (jika ada)?

Saya berpikir bahwa keuntungan menggunakan Leaky ReLU daripada ReLU adalah bahwa dengan cara ini kita tidak bisa menghilangkan gradien. Parametrik ReLU memiliki keunggulan yang sama dengan satu-satunya perbedaan bahwa kemiringan output untuk input negatif adalah parameter yang dapat dipelajari sementara di LeLAK ReLU itu adalah hiperparameter.

Namun, saya tidak dapat memberi tahu jika ada kasus-kasus di mana lebih nyaman untuk menggunakan ReLU daripada Leaky ReLU atau Parametric ReLU.

neural-networks activation-function relu

— gvgramazio
sumber

Menggabungkan ReLU, varian bocor ¹ parameter-hyper , dan varian dengan parametrization dinamis selama pembelajaran membingungkan dua hal berbeda:

Perbandingan antara ReLU dengan varian bocor terkait erat dengan apakah ada kebutuhan, dalam kasus ML tertentu di tangan, untuk menghindari saturasi - Saturasi adalah hilangnya sinyal baik nol gradien ² atau dominasi kebisingan kacau yang timbul dari digital pembulatan ³ .
Perbandingan antara aktivasi pelatihan-dinamis (disebut parametrik dalam literatur) dan aktivasi pelatihan-statis harus didasarkan pada apakah karakteristik aktivasi non-linier atau tidak mulus memiliki nilai terkait dengan laju konvergensi ⁴ .

Alasan mengapa ReLU tidak pernah bersifat parametrik adalah karena membuatnya demikian akan menjadi berlebihan. Dalam domain negatif, itu adalah nol konstan. Dalam domain non-negatif, turunannya konstan. Karena vektor input aktivasi sudah dilemahkan dengan produk matriks-vektor (di mana matriks, kubus, atau hiper-kubus berisi parameter atenuasi), tidak ada tujuan yang berguna dalam menambahkan parameter untuk memvariasikan turunan konstan untuk domain non-negatif. .

Ketika ada kelengkungan dalam aktivasi, tidak lagi benar bahwa semua koefisien aktivasi adalah redundan sebagai parameter. Nilai-nilai mereka dapat sangat mengubah proses pelatihan dan dengan demikian kecepatan dan keandalan konvergensi.

Untuk jaringan yang secara substansial dalam, redundansi muncul kembali, dan ada bukti mengenai hal ini, baik secara teori maupun praktik dalam literatur.

Dalam istilah aljabar, perbedaan antara ReLU dan aktivasi dinamis parametrik yang diturunkan darinya mendekati nol ketika kedalaman (dalam jumlah lapisan) mendekati tak terhingga.
Dalam istilah deskriptif, ReLU dapat secara akurat memperkirakan fungsi dengan kelengkungan ⁵ jika diberi jumlah lapisan yang cukup untuk melakukannya.

Itulah sebabnya varietas ELU, yang menguntungkan untuk mencegah masalah saturasi yang disebutkan di atas untuk jaringan yang lebih dangkal tidak digunakan untuk yang lebih dalam.

Jadi seseorang harus memutuskan dua hal.

Apakah aktivasi parametrik bermanfaat sering didasarkan pada eksperimen dengan beberapa sampel dari populasi statistik. Tetapi tidak perlu bereksperimen sama sekali jika kedalaman lapisannya tinggi.
Apakah varian yang bocor bernilai ada hubungannya dengan rentang numerik yang dijumpai selama propagasi balik. Jika gradien menjadi semakin kecil selama perbanyakan kembali pada titik mana pun selama pelatihan, bagian konstan dari kurva aktivasi mungkin bermasalah. Sedemikian scase salah satu fungsi halus atau RelU bocor dengan itu dua lereng tidak nol dapat memberikan solusi yang memadai.

Singkatnya, pilihan itu tidak pernah menjadi pilihan kenyamanan.

Catatan kaki

[1] Parameter-hiper adalah parameter yang memengaruhi pensinyalan melalui lapisan yang bukan bagian dari redaman input untuk lapisan itu. Bobot redaman adalah parameter. Parametrization lainnya adalah di set parameter hiper. Ini mungkin termasuk tingkat pembelajaran, peredam frekuensi tinggi dalam propagasi belakang, dan berbagai kontrol pembelajaran lainnya yang ditetapkan untuk seluruh lapisan, jika tidak seluruh jaringan.

[2] Jika gradiennya nol, maka tidak mungkin ada penyesuaian cerdas dari parameter karena arah penyesuaian tidak diketahui, dan besarnya harus nol. Belajar berhenti.

[3] Jika noise kacau, yang dapat muncul ketika CPU membulatkan nilai yang sangat kecil ke representasi digital terdekatnya, mendominasi sinyal koreksi yang dimaksudkan untuk merambat kembali ke lapisan, maka koreksi menjadi omong kosong dan pembelajaran berhenti.

[4] Laju konvergensi adalah ukuran kecepatan (baik relatif terhadap mikrodetik atau relatif terhadap indeks iterasi algoritma) di mana hasil pembelajaran (perilaku sistem) mendekati apa yang dianggap cukup baik. Itu biasanya kedekatan tertentu dengan beberapa kriteria penerimaan formal untuk konvergensi (pembelajaran).

[5] Fungsi dengan lengkungan adalah fungsi yang tidak divisualisasikan sebagai lurus atau rata. Parabola memiliki kelengkungan. Garis lurus tidak. Permukaan telur memiliki kelengkungan. Sebuah bidang datar yang sempurna tidak. Secara matematis, jika salah satu elemen fungsi Goni adalah nol, fungsi tersebut memiliki kelengkungan.

— FauChristian
sumber

Apa yang Anda maksud dengan Pilihan tidak pernah menjadi pilihan kenyamanan ?

— gvgramazio

@ gvgramazio, Anda telah menulis, "lebih nyaman menggunakan ReLU," dalam pertanyaan Anda. Saya menunjukkan bahwa kenyamanan bukanlah dasar untuk menentukan pilihan. Mungkin itu terlalu keras? Saya tidak bermaksud begitu. Kalimat di atas kalimat itu dalam jawaban saya dimaksudkan untuk memberikan kriteria yang lebih berguna di mana Anda dapat mendasarkan keputusan Anda saat memilih fungsi aktivasi.

— FauChristian

Jangan khawatir tentang terlalu keras, tidak masalah sama sekali bagi saya. Saya pikir itu lebih merupakan masalah bahasa (saya bukan penutur asli bahasa Inggris).

— gvgramazio

Faktanya adalah, dari apa yang saya mengerti, Anda menjelaskan dengan baik dalam hal ini saya harus memilih satu varian sehubungan dengan yang lain. Yang masih saya tidak mengerti adalah kapan saya harus memilih yang klasik. misalnya varian bocor dapat memberikan solusi yang memadai untuk menghilangkan gradien tetapi jika tidak ada kekurangan saya selalu bisa memilih varian bocor sehubungan dengan ReLU.

— gvgramazio

@ Fu christian dapat tolong tambahkan beberapa istilah sehari-hari dan intuisi, saya tidak begitu akrab dengan bahasa matematika :)

— DuttaA