4
Bagaimana cara menangani gerakan yang tidak valid dalam pembelajaran penguatan?
Saya ingin membuat AI yang bisa memainkan lima-dalam-baris / gomoku. Seperti yang saya sebutkan dalam judul, saya ingin menggunakan pembelajaran penguatan untuk ini. Saya menggunakan metode gradien kebijakan , yaitu REINFORCE, dengan baseline. Untuk perkiraan nilai dan fungsi kebijakan, saya menggunakan jaringan saraf . Ini memiliki lapisan convolutional dan sepenuhnya …