Untuk yang terbaik dari pemahaman saya, algoritma pencarian pohon Carlo Carlo (MCTS) adalah alternatif untuk minimum untuk mencari pohon node. Ini bekerja dengan memilih langkah (umumnya, yang memiliki peluang tertinggi untuk menjadi yang terbaik), dan kemudian melakukan permainan acak saat bergerak untuk melihat apa hasilnya. Proses ini berlanjut untuk jumlah waktu yang diberikan.
Ini tidak terdengar seperti pembelajaran mesin, melainkan cara untuk melintasi pohon. Namun, saya pernah mendengar bahwa AlphaZero menggunakan MCTS, jadi saya bingung. Jika AlphaZero menggunakan MCTS, lalu mengapa AlphaZero belajar? Atau apakah AlphaZero melakukan semacam pembelajaran mesin sebelum memainkan pertandingan, dan kemudian menggunakan intuisi yang diperolehnya dari pembelajaran mesin untuk mengetahui gerakan mana yang menghabiskan lebih banyak waktu bermain dengan MCTS?