Apa kebijakan peluncuran di koran AlphaGo?


11

Makalahnya ada di sini .

Kebijakan peluncuran ... adalah kebijakan softmax linier yang didasarkan pada fitur berbasis pola yang cepat, dihitung secara lokal, ...

Saya tidak mengerti apa itu kebijakan peluncuran, dan bagaimana kaitannya dengan jaringan kebijakan memilih langkah. Adakah penjelasan yang lebih sederhana?


Makalah ini tampaknya berada di belakang paywall ...
Vladislavs Dovgalecs

@ xeon Saya tidak bisa menahannya. Saya memiliki akses penuh ke koran tetapi saya tidak dapat mengunggahnya di sini (undang-undang hak cipta). Mungkin google sekitar jika ada orang lain yang memiliki salinan?
HelloWorld

Jawaban:


11

p(as)asp

Ketika mereka mengatakan bahwa kebijakan peluncuran (saya percaya mereka meminjam istilah "peluncuran" dari backgammon) adalah fungsi softmax linear yang mereka maksudkan adalah generalisasi fungsi sigmoid yang digunakan dalam regresi logistik. Fungsi ini berbentuk

eβiTxj=1keβjTx

xβiai

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.