Saya ingin membuat AI yang bisa memainkan lima-dalam-baris / gomoku. Seperti yang saya sebutkan dalam judul, saya ingin menggunakan pembelajaran penguatan untuk ini.
Saya menggunakan metode gradien kebijakan , yaitu REINFORCE, dengan baseline. Untuk perkiraan nilai dan fungsi kebijakan, saya menggunakan jaringan saraf . Ini memiliki lapisan convolutional dan sepenuhnya terhubung. Semua layer, kecuali untuk output, dibagikan. Lapisan output kebijakan memiliki (ukuran papan) unit output dan softmax pada mereka. Jadi stochastic. Tetapi bagaimana jika jaringan menghasilkan probabilitas yang sangat tinggi untuk perpindahan yang tidak valid? Langkah tidak valid adalah ketika agen ingin memeriksa kotak yang memiliki satu "X" atau "O" di dalamnya. Saya pikir itu bisa macet dalam keadaan permainan itu.
Bisakah Anda merekomendasikan solusi untuk masalah ini?
Dugaan saya adalah menggunakan metode aktor-kritik . Untuk langkah yang tidak valid, kita harus memberikan hadiah negatif dan memberikan giliran kepada lawan.