Saya telah membaca di tempat lain bahwa pilihan seseorang untuk fungsi aktivasi lapisan tersembunyi dalam NN harus didasarkan pada kebutuhan seseorang , yaitu jika Anda membutuhkan nilai dalam rentang -1 hingga 1 gunakan tanh dan gunakan sigmoid untuk rentang 0 hingga 1.
Pertanyaan saya adalah bagaimana seseorang tahu apa yang dibutuhkan seseorang ? Apakah ini didasarkan pada rentang lapisan input, misalnya menggunakan fungsi yang dapat mencakup rentang nilai penuh lapisan input, atau entah bagaimana mencerminkan distribusi lapisan input (fungsi Gaussian)? Atau apakah masalah kebutuhan / domain spesifik dan pengalaman / penilaian seseorang diperlukan untuk membuat pilihan ini? Atau itu hanya "menggunakan apa yang memberikan kesalahan pelatihan minimum divalidasi silang terbaik?"
1 + (1 / exp(-sum))
. Membuat kebutuhan sangat sulit untuk dipahami tanpa mencoba keduanya pada setiap set data. The kebutuhan seperti yang disebutkan di sini terkait dengan hubungan yang sebenarnya sedang belajar, yaitu satu set data biner akan belajar lebih cepat atau tidak sama sekali aktivasi yang berbeda diberikan.