Input Normalisasi untuk neuron ReLU


9

Menurut "Efficient Backprop" oleh LeCun et al (1998) adalah praktik yang baik untuk menormalkan semua input sehingga mereka berpusat di sekitar 0 dan berada dalam kisaran turunan maksimum kedua. Jadi misalnya kita akan menggunakan [-0,5,0,5] untuk fungsi "Tanh". Ini untuk membantu perkembangan back-propagation ketika Hessian menjadi lebih stabil.

Namun, saya tidak yakin apa yang harus dilakukan dengan Rectifier neuron yang maks (0, x). (Juga dengan fungsi logistik sejak saat itu kami ingin sesuatu seperti [0.1.0.9] namun itu tidak terpusat di sekitar 0)

Jawaban:


7

Sepengetahuan saya, hal yang paling dekat dengan apa yang mungkin Anda cari adalah artikel baru-baru ini oleh para peneliti Google: Normalisasi Batch: Mempercepat Pelatihan Jaringan Dalam dengan Mengurangi Pergeseran Kovarian Internal .

Normalisasi Batch

lyl=f(Wx+b)fW,bx

Apa yang dilakukan Normalisasi Batch (BN) adalah sebagai berikut:

  1. Wx+bx^x^Wx+b
  2. x^γx^+β.
  3. y^l=f(γx^+β)

Jadi, BN menstandarisasi output aktivasi "mentah" (baca: sebelum kita menerapkan nonlinier) memiliki rata-rata nol, varian 1, dan kemudian kita menerapkan transformasi afin yang dipelajari, dan akhirnya kita menerapkan nonlinier. Dalam beberapa hal kita dapat menafsirkan ini sebagai memungkinkan jaringan saraf untuk mempelajari distribusi input parameter yang sesuai untuk nonlinier.

γ,β

Motivasi Transformasi Affine

βγ

Standarisasi Pertama

γ,β, mereka sebenarnya belajar transformasi di mana mereka menggunakan transformasi identitas sebagai referensi atau dasar untuk perbandingan. Rekan penulis Microsoft percaya bahwa memiliki referensi atau garis dasar ini membantu pra-kondisi masalah. Saya tidak percaya bahwa terlalu jauh untuk bertanya-tanya apakah sesuatu yang serupa terjadi di sini dengan BN dan langkah standardisasi awal.

Aplikasi BN

Hasil yang sangat menarik adalah bahwa dengan menggunakan Normalisasi Batch, tim Google bisa mendapatkan jaringan Inception tanh untuk berlatih di ImageNet dan mendapatkan hasil yang cukup kompetitif. Tanh adalah nonlinier jenuh dan sulit untuk mendapatkan jenis jaringan ini untuk belajar karena masalah gradien saturasi / lenyapnya. Namun, menggunakan Normalisasi Batch, orang dapat mengasumsikan bahwa jaringan mampu mempelajari transformasi yang memetakan nilai output aktivasi ke dalam rezim non-saturasi nonlinier tanh.

Catatan Akhir

Mereka bahkan merujuk factoid Yann LeCun yang sama yang Anda sebutkan sebagai motivasi untuk Normalisasi Batch.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.