Apa itu "algoritma penguatan pembelajaran baru" di AlphaGo Zero?

Untuk beberapa alasan, AlphaGo Zero tidak mendapatkan publisitas sebanyak seperti AlphaGo asli, meskipun hasilnya luar biasa. Mulai dari awal, sudah mengalahkan AlphaGo Master dan telah melewati banyak tolok ukur lainnya. Bahkan yang lebih luar biasa, ini dilakukan dalam 40 hari. Google menamainya sebagai "pemain Go terbaik di dunia" .

DeepMind mengklaim ini adalah "bentuk baru dari pembelajaran penguatan" - apakah teknik ini benar-benar baru? Atau pernahkah ada waktu lain ketika teknik ini digunakan - dan jika demikian, apa hasilnya? Saya pikir persyaratan yang saya bicarakan adalah 1) tidak ada campur tangan manusia dan 2) tidak ada permainan sejarah, tetapi ini fleksibel.

Ini tampaknya pertanyaan yang serupa, tetapi semua jawaban tampaknya dimulai dari asumsi bahwa AlphaGo Zero adalah yang pertama dari jenisnya.

machine-learning deep-learning

— Dubukay
sumber

Pembelajaran penguatan bukanlah hal baru. Teknik apa yang diklaim Google sebagai yang pertama?

— HelloWorld

Ada kutipan tentang hal itu di situs web yang ditautkan, dan dalam artikel itu mereka menggunakan frasa "Jaringan saraf di AlphaGo Zero dilatih dari permainan permainan mandiri oleh algoritma pembelajaran penguatan baru."

— Dubukay

Bermain sendiri jelas bukan hal baru. Itu ada sebelum Google. Sudah ada detail dalam algoritme mereka yang menjadikannya "novel". Mungkin orang lain bisa menjawab.

— HelloWorld

Saya mengerti itu - saya kira saya mencoba memahami apa yang membuat pendekatan mereka sangat bagus, dan apakah itu sesuatu yang harus kita lihat di bidang lain. Apakah itu filosofi baru atau kode yang benar-benar bagus?

— Dubukay

Saya menemukan salinan makalah di sini: nature.com/articles/… (termasuk token akses berbagi, yang berasal dari blog yang menautkannya, jadi itu adalah share publik yang sah AFAICS). Bahkan setelah membaca deskripsi meskipun sulit untuk memilih hal baru yang sebenarnya - semua ide individu tampaknya sudah ada sebelumnya RL / teknik bermain game, mungkin hanya kombinasi spesifik dari mereka yang novel

— Neil Slater

Artikel AlphaGo Zero dari Nature , "Menguasai Game Go tanpa Pengetahuan Manusia", mengklaim empat perbedaan utama dari versi sebelumnya:

Belajar mandiri saja (tidak dilatih tentang permainan manusia)
Hanya menggunakan papan dan batu sebagai input (tidak ada fitur tulisan tangan).
Menggunakan jaringan saraf tunggal untuk kebijakan dan nilai-nilai
Algoritma pencarian pohon baru yang menggunakan jaringan kebijakan / nilai gabungan ini untuk memandu tempat mencari langkah yang baik.

Poin (1) dan (2) bukan hal baru dalam pembelajaran Penguatan, tetapi meningkatkan pada perangkat lunak AlphaGo sebelumnya seperti yang dinyatakan dalam komentar untuk pertanyaan Anda. Itu hanya berarti mereka sekarang menggunakan Pembelajaran Penguatan murni mulai dari bobot yang diinisialisasi secara acak. Ini diaktifkan oleh algoritma pembelajaran yang lebih baik dan lebih cepat.

Klaim mereka di sini adalah "Kontribusi utama kami adalah untuk menunjukkan bahwa kinerja manusia super dapat dicapai tanpa pengetahuan domain manusia." (hlm. 22).

Poin (3) dan (4) adalah novel dalam arti bahwa algoritma mereka lebih sederhana dan lebih umum daripada pendekatan mereka sebelumnya. Mereka juga menyebutkan bahwa ini merupakan peningkatan dari pekerjaan sebelumnya oleh Guo et al.

Menyatukan jaringan kebijakan / nilai (3) memungkinkan mereka untuk mengimplementasikan varian pencarian pohon Monte-Carlo yang lebih efisien untuk mencari gerakan yang baik dan secara simultan menggunakan pohon pencarian untuk melatih jaringan lebih cepat (4). Ini sangat kuat.

Selain itu, mereka menggambarkan sejumlah detail implementasi yang menarik seperti batching dan menggunakan kembali struktur data untuk mengoptimalkan pencarian langkah baru.

Efeknya adalah ia membutuhkan daya komputasi yang lebih kecil, berjalan pada 4 TPU daripada 176 GPU dan 48 TPU untuk versi sebelumnya dari perangkat lunak mereka.

Ini pasti membuatnya "novel" dalam konteks perangkat lunak Go. Saya percaya bahwa (3) dan (4) juga "novel" dalam konteks yang lebih luas dan akan berlaku di domain Pembelajaran Penguatan lainnya seperti misalnya robotika.

— mjul
sumber

Saya pikir (4) disinggung dalam ceramah David Silver - ceramah 10 tentang game klasik - dalam banyak kasus yang ada MCTS dipandu oleh ML yang sudah terlatih. Dalam kasus AlphaGo Zero, ini diputar balik dan hasil MCTS digunakan untuk menetapkan target pembelajaran untuk ML. Namun, hal yang membuat saya bertanya-tanya apakah itu benar-benar "novel" adalah kemungkinan melakukan hal yang disebutkan dalam ceramah. . .

— Neil Slater