Ada beberapa cara untuk mendekati pemecahan masalah bermain game. Beberapa game dapat diselesaikan dengan algoritma pencarian misalnya. Ini berfungsi baik untuk permainan kartu dan papan hingga tingkat kompleksitas tertentu. Sebagai contoh, Deep Blue IBM pada dasarnya adalah pencarian heuristik yang digerakkan cepat untuk gerakan optimal.
Namun, mungkin algoritma pembelajaran mesin paling umum untuk melatih agen untuk melakukan tugas secara optimal adalah pembelajaran penguatan . Secara teknis ini bukan satu algoritma, tetapi keluarga besar dari algoritma terkait yang semuanya menyelesaikan formalisasi spesifik dari masalah pembelajaran.
Secara informal, Penguatan Belajar (RL) adalah tentang menemukan solusi optimal untuk masalah didefinisikan dalam hal suatu agen yang dapat mengamati keadaan dari lingkungan , mengambil tindakan dalam lingkungan dan pengalaman imbalan yang entah bagaimana berhubungan dengan negara dan tindakan. Pemecah RL perlu dirancang untuk mengatasi situasi di mana hadiah diterima lebih lambat daripada ketika tindakan penting diambil, dan ini biasanya dicapai dengan algoritma yang mempelajari ekspektasi internal imbalan kemudian terkait dengan pasangan negara dan / atau tindakan negara.
Berikut adalah beberapa sumber untuk mempelajari Penguatan Pembelajaran:
Anda akan menemukan subjek itu sendiri cukup besar karena variasi algoritma yang lebih dan lebih canggih diperlukan karena masalah untuk dipecahkan menjadi lebih sulit.
Memulai permainan untuk mempelajari pembelajaran penguatan mungkin termasuk:
Tik-tac-toe (alias Noughts dan crosses) - ini dapat diselesaikan dengan mudah menggunakan pencarian, tetapi itu membuat masalah mainan sederhana untuk dipecahkan dengan menggunakan teknik RL dasar.
Labirin - dalam literatur pembelajaran penguatan, ada banyak contoh permainan "dunia kisi" di mana agen bergerak dalam langkah N, E, S, W tunggal di papan kecil yang dapat diisi dengan bahaya dan tujuan.
Blackjack (alias 21)
Jika Anda ingin bekerja dengan agen untuk bermain video game, Anda juga ingin belajar tentang jaringan saraf dan mungkin dalam beberapa detail - Anda perlu jaringan saraf yang dalam dan konvolusional untuk memproses grafik layar.
Sumber daya yang relatif baru untuk RL adalah OpenAI Universe . Mereka telah melakukan banyak pekerjaan untuk mengemas lingkungan yang siap untuk melatih agen, yang berarti Anda dapat berkonsentrasi mempelajari algoritma pembelajaran, sebagai lawan dari upaya pengaturan lingkungan.
Mengenai daftar keterampilan Anda saat ini: Tidak satu pun dari mereka yang secara langsung relevan dengan pembelajaran penguatan. Namun:
Jika Anda dapat memahami matematika dan teori dari kursus sebelumnya, maka Anda juga harus bisa memahami teori belajar penguatan.
Jika Anda telah mempelajari teknik pembelajaran yang diawasi secara online atau batch, maka ini dapat digunakan sebagai komponen di dalam kerangka kerja RL. Biasanya mereka dapat digunakan untuk memperkirakan fungsi nilai dari kondisi permainan, berdasarkan umpan balik dari keberhasilan dan kegagalan sejauh ini.