Dalam makalah DeepGoGo AlphaGo Zero dan AlphaZero , mereka menggambarkan menambahkan Dirichlet noise ke probabilitas sebelumnya dari tindakan dari simpul akar (board state) di Pencarian Pohon Monte Carlo:
Eksplorasi tambahan dicapai dengan menambahkan Dirichlet noise ke probabilitas sebelumnya di simpul akar , khususnya , di mana dan ; kebisingan ini memastikan bahwa semua gerakan dapat dicoba, tetapi pencarian mungkin masih mengesampingkan gerakan buruk. P ( s , a ) = ( 1 - ε ) p a + ε η a η ∼ Dir ( 0,03 ) ε = 0,25
(AlphaGo Zero)
Dan:
Dirichlet noise telah ditambahkan ke probabilitas sebelumnya di simpul root; ini diskalakan dalam proporsi terbalik dengan jumlah perkiraan langkah hukum dalam posisi tipikal, ke nilai untuk catur, shogi, dan Go masing-masing.α = { 0,3 ,
(AlphaZero)
Dua hal yang saya tidak mengerti:
P(s, a)
adalah vektor dimensi. Apakah singkatan untuk distribusi Dirichlet dengan parameter, masing-masing dengan nilai ?Dir ( α ) n αSaya hanya menemukan Dirichlet sebagai konjugat sebelum distribusi multinomial. Mengapa diambil di sini?
Untuk konteks, P(s, a)
hanya satu komponen perhitungan PUCT (polynomial upper confidence tree, varian pada batas kepercayaan atas) untuk keadaan / tindakan tertentu. Ditekan oleh konstanta dan metrik untuk berapa kali tindakan yang diberikan telah dipilih di antara saudara kandungnya selama MCTS, dan ditambahkan ke nilai tindakan yang diperkirakan Q(s, a)
:
PUCT(s, a) = Q(s, a) + U(s, a)
.- .