Baru-baru ini, muncul berita bahwa tim peneliti DeepMind Alphabet telah memperluas mesin pembelajaran mesin mereka untuk bermain Shogi dan catur. Rupanya, setelah hanya beberapa jam belajar mandiri, artinya dengan hanya bermain melawan dirinya sendiri mengingat aturan permainan, kinerjanya dalam catur telah melampaui mesin unggulan saat ini seperti Stockfish 8. Saya pribadi belum tahu bagaimana tepatnya pertandingan itu diatur, seperti dalam kondisi apa Stockfish ditetapkan untuk melakukan, karena jika waktu perhitungan mesin terbatas mampu melakukan sangat buruk. Bagaimanapun, ini adalah pencapaian yang sangat mengesankan, karena bahkan jika ternyata seseorang bisa membuat Stockfish lebih optimal, dengan beberapa jam pelatihan tambahan, AlphaZero akan melampaui lagi tingkat permainan, yang berarti AlphaZero secara fundamental lebih kuat daripada yang ada saat ini mesin catur standar berdasarkan fungsi evaluasi heuristik.
Sekarang dalam terang berita ini, akan lebih baik jika seseorang bisa menguraikan perbedaan utama dalam cara kerja mesin catur yang dipelajari mesin dibandingkan dengan mesin standar yang kita semua gunakan. Lebih konkret:
- Bukankah fungsi evaluasi yang digunakan AlphaZero, dilatih oleh metode pembelajaran mesin, pada akhirnya hanyalah fungsi evaluasi heuristik lainnya? Jika ya, apakah akan adil untuk mengatakan bahwa perbedaan mendasar antara fungsi evaluasi dari dua mesin, adalah fakta bahwa Stockfish memiliki fungsi evaluasi yang dioptimalkan yang disesuaikan dengan tangan manusia, artinya definisi fungsi untuk mengoptimalkan tetap, sedangkan untuk AlphaZero, fungsi evaluasi target terus-menerus didefinisikan ulang melalui pelatihan tambahan (misalnya melalui permainan mandiri)? Menjadikan yang terakhir pendekatan yang jauh lebih dinamis.
Pada akhirnya, secara samar-samar, sebuah mesin seperti Stockfish, menerapkan fungsi evaluasinya pada pohon gerakan yang mungkin, memutuskan cabang mana yang akan disimpan dan mana yang akan dijatuhkan, kemudian melalui beton yang lebih dalamanalisis masing-masing cabang, sekali lagi melalui fungsi evaluasinya, ia menggambarkan cabang mana yang menghasilkan nilai tertinggi, dan itu menjadi variasi utama (tentu saja ada banyak teknik canggih di sekitar proses ini untuk memangkas pohon besar ini secara efisien). Artinya, untuk setiap posisi, rutin yang sangat konkret ini harus diulangi untuk Stockfish untuk membuat keputusan. Sebaliknya, saya membayangkan AlphaZero melakukan sesuatu yang sangat berbeda, yaitu, ia tidak bergantung pada analisis konkrit dari pohon kemungkinan pergerakan pada posisi tertentu, sebaliknya fungsi evaluasinya pada dasarnya memberikan nilai pada posisi itu (yang secara intuitif mirip dengan menempatkan posisi saat ini dalam analogi dengan semua posisi lain yang telah dilatih untuk), tanpa harus melakukan konkretanalisis seperti yang dilakukan Stockfish, atau bahkan pemain manusia. Apakah ini sama sekali gambaran yang bagus tentang cara kerja AlphaZero atau mesin pembelajaran mesin yang serupa?
Kita tahu bahwa ruang posisi catur cukup besar sehingga setiap upaya pengambilan sampel semua posisi di dalamnya akan pada prinsipnya sepenuhnya sia-sia (kompleksitas EXPTIME), yang akan menyarankan bahwa tidak ada jumlah pelatihan melalui permainan mandiri yang cukup untuk telah menjelajahi semua posisi, jadi bagaimana hasil akhirnya bisa baik meskipun berpotensi mengeksplorasi sebagian kecil dari posisi ruang melalui permainan mandiri? Apa ide kunci yang dimainkan di sini?
Dugaan saya adalah, AlphaZero memiliki cara yang sangat optimal untuk membandingkan posisi apa pun yang diberikan, bahkan jika baru, dengan posisi yang sebelumnya dikunjungi dalam rangkaian pelatihannya, semakin dekat perbandingan, semakin valid evaluasi yang dapat diambil dari perbandingan. Misalnya, ketika memainkan langkah Bg5 di game 5 , ia harus menjelajahi struktur yang sama selama pelatihannya, yaitu ia dapat mengenali bahwa posisi ini pada dasarnya setara dengan (yang mungkin sepenuhnya) berbeda yang dipelajari dalam pelatihannya, di analogi dengan bagaimana pengenalan wajah dicapai melalui pembelajaran mesin, dan sebagai hasilnya ia menyimpulkan Bg5 harus menjadi langkah terbaik, seperti dalam (atau mereka) posisi serupa lainnya. Apakah ini tebakan yang benar? Saya tidak tahu bagaimana perbandingan ini selesai, karena pasti tidak mungkin untuk menyimpan semua posisi yang terlatih dan menguraikannya setiap kali.
Ini hanyalah upaya untuk mendapatkan wawasan tentang cara kerja AlphaZero dan bagaimana hal itu sampai pada suatu keputusan yang diberikan posisi.