Apa alasan bahwa Pengoptimal Adam dianggap kuat dengan nilai parameter hipernya?

Saya membaca tentang pengoptimal Adam untuk Deep Learning dan menemukan kalimat berikut dalam buku baru Deep Learning karya Bengio, Goodfellow dan Courville:

Adam umumnya dianggap cukup kuat untuk memilih parameter hiper, meskipun tingkat pembelajaran kadang-kadang perlu diubah dari standar yang disarankan.

jika ini benar, ini adalah masalah besar karena pencarian parameter hyper bisa sangat penting (dalam pengalaman saya setidaknya) dalam kinerja statistik sistem pembelajaran yang mendalam. Jadi, pertanyaan saya adalah, mengapa Adam Robust menjadi parameter penting seperti itu? Khusus dan ? $\beta_1$ $\beta_2$

Saya telah membaca makalah Adam dan tidak memberikan penjelasan mengapa itu bekerja dengan parameter tersebut atau mengapa itu kuat. Apakah mereka membenarkan hal itu di tempat lain?

Juga, ketika saya membaca makalah, tampaknya jumlah parameter hiper yang mereka coba sangat kecil, untuk $\beta_1$ hanya 2 dan untuk $\beta_2$ saja 3. Bagaimana ini bisa menjadi studi empiris menyeluruh jika hanya bekerja pada parameter hiper 2x3 ?

— Charlie Parker
sumber

Kirim email ke penulis buku yang mengajukan klaim. Tanyakan pada mereka berdasarkan klaim apa.

— Mark L. Stone

@ MarkL. Batu dia hanya mengatakan dia mengatakannya karena abstrak mengatakannya. Argumen yang sulit meyakinkan. Mungkin lain kali saya akan mengirim email ke penulis makalah yang sebenarnya.

— Charlie Parker

Dan promosi diri menjadi fakta.

— Mark L. Stone

@ MarkL. Batu dalam pembelaannya, dia mungkin sibuk menjawab dengan benar dan saya hanya menghubungi 1 dari 3 penulis. Mungkin saya bisa menghubungi yang lain tetapi saya tidak yakin apakah mereka akan menjawab diberikan (setidaknya) satu adalah seorang profesor. Dengan hype di DL saya yakin dia mendapat 300 email setiap hari.

— Charlie Parker

Sekarang setelah buku itu keluar, para penulis Adam memiliki konfirmasi tentang betapa hebatnya algoritma mereka. Mengingatkan saya pada gempa bumi '89 Bay Area. Stasiun radio berita membuat laporan # yang tidak dikonfirmasi mengenai kematian akibat keruntuhan di jalan raya - mengatakan mereka mencari konfirmasi dari kantor gubernur. Kemudian mereka menghubungi gubernur di telepon dan bertanya apakah dia bisa memastikan # kematian. Dia mengatakan itu yang dia dengar. Stasiun radio kemudian melaporkan bahwa mereka sekarang mendapat konfirmasi dari gubernur. Ternyata gubernur itu bermaksud agar dia mendengarnya, ternyata, di stasiun radio itu. Jadi, konfirmasi melingkar.

— Mark L. Stone

Jawaban:

Berkenaan dengan bukti sehubungan dengan klaim, saya percaya satu-satunya bukti yang mendukung klaim dapat ditemukan pada gambar 4 di makalah mereka . Mereka menunjukkan hasil akhir di bawah kisaran nilai yang berbeda untuk , dan . $\beta_1$ $\beta_2$ $\alpha$

Secara pribadi, saya tidak menemukan argumen mereka meyakinkan, khususnya karena mereka tidak menyajikan hasil di berbagai masalah. Dengan itu, saya akan perhatikan bahwa saya telah menggunakan ADAM untuk berbagai masalah, dan temuan pribadi saya adalah bahwa nilai default dari dan benar-benar dapat diandalkan, meskipun diperlukan banyak upaya mengutak-atik . $\beta_1$ $\beta_2$ $\alpha$

— Cliff AB
sumber

Adam belajar tingkat belajar itu sendiri, berdasarkan parameter. Parameter dan tidak secara langsung menentukan tingkat pembelajaran, hanya rentang waktu di mana tingkat pembelajaran yang dipelajari . Jika mereka membusuk sangat cepat, maka tingkat belajar akan melonjak di semua tempat. Jika mereka membusuk secara perlahan, akan butuh waktu lama bagi tingkat pembelajaran untuk dipelajari. Tetapi perhatikan bahwa dalam semua kasus, laju pembelajaran ditentukan secara otomatis, berdasarkan estimasi bergerak dari gradien per-parameter, dan gradien kuadrat per-parameter. $\beta_1$ $\beta_2$

Ini sangat kontras dengan stock vanilla Stochastic Gradient Descent, di mana:

tingkat pembelajaran bukan per-parameter, tetapi ada satu, tingkat pembelajaran global, yang diterapkan secara blak-blakan, di semua parameter
- (Ngomong-ngomong, ini adalah salah satu alasan mengapa data sering diputihkan, dinormalisasi, sebelum dikirim ke jaring, untuk mencoba menjaga bobot ideal per-parameter sama)
tingkat pembelajaran yang disediakan adalah tingkat pembelajaran yang tepat digunakan, dan tidak akan beradaptasi seiring waktu

Adam bukan satu-satunya pengoptimal dengan tingkat pembelajaran adaptif. Seperti yang dinyatakan oleh makalah Adam sendiri, ini sangat terkait dengan Adagrad dan Rmsprop, yang juga sangat tidak sensitif terhadap hiperparameter. Terutama, Rmsprop bekerja dengan sangat baik.

Tetapi Adam adalah yang terbaik secara umum. Dengan sedikit pengecualian, Adam akan melakukan apa yang Anda inginkan :)

Ada beberapa kasus yang cukup patologis di mana Adam tidak akan bekerja, terutama untuk beberapa distribusi yang sangat tidak stasioner. Dalam kasus ini, Rmsprop adalah opsi siaga yang sangat baik. Tetapi secara umum, untuk sebagian besar kasus non-patologis, Adam bekerja dengan sangat baik.

— Hugh Perkins
sumber

β_{1}, β_{2}

$\beta_1,\beta_2$

Ya, jika Anda maksudkan, 'adakah peluang di sini untuk meneliti lebih dalam mengapa?', Yah ... mungkin.

— Hugh Perkins

ini bukan "pertanyaan yang lebih dalam". Ini sepertinya salah satu poin terpenting dari makalah ini, bukan? Intinya adalah bahwa ia melakukan hal-hal dengan "dirinya sendiri" tetapi kemudian ada hiperparameter lain yang tampaknya kuat secara ajaib. Itulah masalah yang saya miliki. Bagi saya itu sepertinya terkait dengan inti makalah ini kecuali saya salah paham tentang maksud Adam.

— Charlie Parker

"Ada beberapa kasus yang cukup patologis di mana Adam tidak akan bekerja, terutama untuk beberapa distribusi yang sangat tidak stasioner." <- ada referensi di sini?

— mimoralea

Melihat formula ADAM, tampaknya agak membingungkan bahwa setelah sejumlah besar iterasi batch (katakan ~ 400k) besarnya, berdasarkan kesalahan asli, gradien itu sendiri memainkan ~ tidak ada peran aktual dalam langkah yang diambil yang tampaknya bercita-cita untuk parameter konfigurasi laju pembelajaran dalam tanda yang relevan.
Mungkin ADAM mengontrol adaptasi berat lebih baik daripada SGD sederhana selama iterasi / epok pertama tetapi melanjutkan pembaruan tampaknya direduksi menjadi sesuatu yang agak naif (?) Adakah yang bisa memberikan intuisi tentang mengapa hal itu sebenarnya diinginkan dan / atau cenderung bekerja dengan baik?

— Danny Rosen
sumber

Sebenarnya sepertinya magnitudo berbasis kesalahan itu sendiri tidak memainkan peran nyata bahkan dari awal. Pertanyaannya adalah mengapa normalisasi seperti itu bekerja dengan baik, dan apa yang tersirat mengenai intuisi GD yang memandu DL dan model pembelajaran umum lainnya?

— Danny Rosen