Artikel AlphaGo Zero dari Nature , "Menguasai Game Go tanpa Pengetahuan Manusia", mengklaim empat perbedaan utama dari versi sebelumnya:
- Belajar mandiri saja (tidak dilatih tentang permainan manusia)
- Hanya menggunakan papan dan batu sebagai input (tidak ada fitur tulisan tangan).
- Menggunakan jaringan saraf tunggal untuk kebijakan dan nilai-nilai
- Algoritma pencarian pohon baru yang menggunakan jaringan kebijakan / nilai gabungan ini untuk memandu tempat mencari langkah yang baik.
Poin (1) dan (2) bukan hal baru dalam pembelajaran Penguatan, tetapi meningkatkan pada perangkat lunak AlphaGo sebelumnya seperti yang dinyatakan dalam komentar untuk pertanyaan Anda. Itu hanya berarti mereka sekarang menggunakan Pembelajaran Penguatan murni mulai dari bobot yang diinisialisasi secara acak. Ini diaktifkan oleh algoritma pembelajaran yang lebih baik dan lebih cepat.
Klaim mereka di sini adalah "Kontribusi utama kami adalah untuk menunjukkan bahwa kinerja manusia super dapat dicapai tanpa pengetahuan domain manusia." (hlm. 22).
Poin (3) dan (4) adalah novel dalam arti bahwa algoritma mereka lebih sederhana dan lebih umum daripada pendekatan mereka sebelumnya. Mereka juga menyebutkan bahwa ini merupakan peningkatan dari pekerjaan sebelumnya oleh Guo et al.
Menyatukan jaringan kebijakan / nilai (3) memungkinkan mereka untuk mengimplementasikan varian pencarian pohon Monte-Carlo yang lebih efisien untuk mencari gerakan yang baik dan secara simultan menggunakan pohon pencarian untuk melatih jaringan lebih cepat (4). Ini sangat kuat.
Selain itu, mereka menggambarkan sejumlah detail implementasi yang menarik seperti batching dan menggunakan kembali struktur data untuk mengoptimalkan pencarian langkah baru.
Efeknya adalah ia membutuhkan daya komputasi yang lebih kecil, berjalan pada 4 TPU daripada 176 GPU dan 48 TPU untuk versi sebelumnya dari perangkat lunak mereka.
Ini pasti membuatnya "novel" dalam konteks perangkat lunak Go. Saya percaya bahwa (3) dan (4) juga "novel" dalam konteks yang lebih luas dan akan berlaku di domain Pembelajaran Penguatan lainnya seperti misalnya robotika.