Apa perbedaan antara neuron tangen hiperbolik dan sigmoid?

8

Dua fungsi aktivasi yang umum digunakan dalam pembelajaran dalam adalah fungsi tangen hiperbolik dan fungsi aktivasi sigmoid. Saya mengerti bahwa garis singgung hiperbolik hanyalah pengubahan dan terjemahan fungsi sigmoid:

$\tanh(z) = 2\sigma(z) - 1$ .

Apakah ada perbedaan yang signifikan antara kedua fungsi aktivasi ini, dan khususnya, kapan satu lebih disukai dari yang lain ?

Saya menyadari bahwa dalam beberapa kasus (seperti ketika memperkirakan probabilitas) output dalam kisaran $[0,1]$ lebih nyaman daripada keluaran yang berkisar dari $[-1,1]$ . Saya ingin tahu apakah ada perbedaan selain kenyamanan yang membedakan dua fungsi aktivasi.

— bpachev
sumber

3

Saya tidak berpikir masuk akal untuk memutuskan fungsi aktivasi berdasarkan pada properti yang diinginkan dari output; Anda dapat dengan mudah memasukkan langkah kalibrasi yang memetakan 'skor jaringan saraf' ke unit apa pun yang sebenarnya ingin Anda gunakan (dolar, probabilitas, dll.).

Jadi saya pikir preferensi antara fungsi aktivasi yang berbeda sebagian besar bermuara pada sifat yang berbeda dari fungsi aktivasi tersebut (seperti apakah mereka terus terdiferensiasi atau tidak). Karena hanya ada transformasi linear antara keduanya, saya pikir itu berarti tidak ada perbedaan yang berarti di antara keduanya.

— Matthew Graves
sumber

2

Sigmoid> Singgung hiperbolik:

Seperti yang Anda sebutkan, penerapan Sigmoid mungkin lebih nyaman daripada singgung hiperbolik dalam kasus-kasus bahwa kita memerlukan nilai probabilitas pada output (seperti kata @ matthew-graves, kita dapat memperbaikinya dengan langkah pemetaan / kalibrasi sederhana). Di lapisan lain, ini tidak masuk akal.

Singgung hiperbolik> Sigmoid:

Singgung hiperbolik memiliki sifat yang disebut "mendekati identitas dekat asal" yang artinya $\tanh(0) = 0$ , $\tanh'(0) = 1$ , dan $\tanh'(z)$ terus menerus sekitar $z=0$ (sebagai lawan $\sigma(0)=0.5$ dan $\sigma'(0)=0.25$ ). Fitur ini (yang juga ada di banyak fungsi aktivasi lainnya seperti identitas , arctan , dan sinusoid ) memungkinkan jaringan belajar secara efisien bahkan ketika bobotnya diinisialisasi dengan nilai-nilai kecil. Dalam kasus lain (misalnya Sigmoid dan ReLU ) nilai awal yang kecil ini bisa bermasalah.

Bacaan lebih lanjut:

Inisialisasi Random Walk untuk Pelatihan Very Deep Feedforward Networks

— Borhan Kazimipour
sumber