Saya memilih fungsi aktivasi untuk lapisan output tergantung pada output yang saya butuhkan dan sifat-sifat fungsi aktivasi yang saya tahu. Sebagai contoh, saya memilih fungsi sigmoid ketika saya berhadapan dengan probabilitas, sebuah ReLU ketika saya berurusan dengan nilai-nilai positif, dan fungsi linier ketika saya berurusan dengan nilai-nilai umum.
Dalam lapisan tersembunyi, saya menggunakan ReLU yang bocor untuk menghindari neuron mati, bukan ReLU dan tanh, bukan sigmoid. Tentu saja, saya tidak menggunakan fungsi linear di unit tersembunyi.
Namun, pilihan untuk mereka di lapisan tersembunyi sebagian besar karena coba-coba.
Apakah ada aturan praktis yang fungsi aktivasi cenderung berfungsi baik dalam beberapa situasi? Ambil istilah situasi seumum mungkin: bisa merujuk pada kedalaman lapisan, ke kedalaman NN, ke jumlah neuron untuk lapisan itu, ke pengoptimal yang kita pilih, ke sejumlah fitur input dari lapisan itu, ke aplikasi NN ini, dll.
Dalam jawabannya , cantordust merujuk ke fungsi aktivasi lain yang tidak saya sebutkan, seperti ELU dan SELU. Info ini lebih dari disambut. Namun, semakin banyak fungsi aktivasi yang saya temukan semakin saya bingung dalam memilih fungsi untuk digunakan di lapisan tersembunyi. Dan saya tidak berpikir bahwa membalik koin adalah cara yang baik untuk memilih fungsi aktivasi.