Saya membaca tentang pengoptimal Adam untuk Deep Learning dan menemukan kalimat berikut dalam buku baru Deep Learning karya Bengio, Goodfellow dan Courville:
Adam umumnya dianggap cukup kuat untuk memilih parameter hiper, meskipun tingkat pembelajaran kadang-kadang perlu diubah dari standar yang disarankan.
jika ini benar, ini adalah masalah besar karena pencarian parameter hyper bisa sangat penting (dalam pengalaman saya setidaknya) dalam kinerja statistik sistem pembelajaran yang mendalam. Jadi, pertanyaan saya adalah, mengapa Adam Robust menjadi parameter penting seperti itu? Khusus dan \ beta_2 ?
Saya telah membaca makalah Adam dan tidak memberikan penjelasan mengapa itu bekerja dengan parameter tersebut atau mengapa itu kuat. Apakah mereka membenarkan hal itu di tempat lain?
Juga, ketika saya membaca makalah, tampaknya jumlah parameter hiper yang mereka coba sangat kecil, untuk hanya 2 dan untuk saja 3. Bagaimana ini bisa menjadi studi empiris menyeluruh jika hanya bekerja pada parameter hiper 2x3 ?