Apakah pencarian pohon Monte Carlo memenuhi syarat sebagai pembelajaran mesin?

9

Untuk yang terbaik dari pemahaman saya, algoritma pencarian pohon Carlo Carlo (MCTS) adalah alternatif untuk minimum untuk mencari pohon node. Ini bekerja dengan memilih langkah (umumnya, yang memiliki peluang tertinggi untuk menjadi yang terbaik), dan kemudian melakukan permainan acak saat bergerak untuk melihat apa hasilnya. Proses ini berlanjut untuk jumlah waktu yang diberikan.

Ini tidak terdengar seperti pembelajaran mesin, melainkan cara untuk melintasi pohon. Namun, saya pernah mendengar bahwa AlphaZero menggunakan MCTS, jadi saya bingung. Jika AlphaZero menggunakan MCTS, lalu mengapa AlphaZero belajar? Atau apakah AlphaZero melakukan semacam pembelajaran mesin sebelum memainkan pertandingan, dan kemudian menggunakan intuisi yang diperolehnya dari pembelajaran mesin untuk mengetahui gerakan mana yang menghabiskan lebih banyak waktu bermain dengan MCTS?

— Ketidaktahuan inersia
sumber

6

Monte Carlo Tree Search biasanya tidak dianggap sebagai teknik pembelajaran mesin, tetapi sebagai teknik pencarian. Ada persamaan (MCTS memang mencoba mempelajari pola umum dari data, dalam arti tertentu, tetapi polanya tidak terlalu umum), tetapi sebenarnya MCTS bukan algoritma yang cocok untuk sebagian besar masalah pembelajaran.

AlphaZero adalah kombinasi dari beberapa algoritma. Salah satunya adalah MCTS, tetapi MCTS membutuhkan fungsi untuk mengatakan seberapa baik kondisi permainan yang berbeda (atau perlu mensimulasikan seluruh permainan). Salah satu cara untuk menangani fungsi ini dalam permainan seperti catur atau Go adalah memperkirakannya dengan melatih jaringan saraf, yang dilakukan oleh para peneliti Deep Mind. Ini adalah komponen pembelajaran AlphaZero.

— John Doucette
sumber

6

Jawaban John benar karena MCTS secara tradisional tidak dipandang sebagai pendekatan Machine Learning, tetapi sebagai algoritma pencarian pohon, dan bahwa AlphaZero menggabungkan ini dengan teknik Machine Learning (Deep Neural Networks dan Reinforcement Learning).

Namun, ada beberapa kesamaan yang menarik antara MCTS itu sendiri dan Machine Learning. Dalam beberapa hal, MCTS mencoba untuk "mempelajari" nilai node dari pengalaman yang dihasilkan melalui node tersebut. Ini sangat mirip dengan cara Reinforcement Learning (RL) bekerja (yang itu sendiri biasanya digambarkan sebagai subset dari Machine Learning).

Beberapa peneliti juga telah bereksperimen dengan penggantian untuk fase Backpropagation tradisional MCTS (yang, dari sudut pandang RL, dapat digambarkan sebagai menerapkan cadangan Monte-Carlo) berdasarkan metode RL lainnya (misalnya, cadangan Perbedaan Seloral) . Sebuah makalah yang komprehensif menggambarkan semacam ini kesamaan antara MCTS dan RL adalah: On Monte Carlo Tree Search dan Reinforcement Learning .

Juga perhatikan bahwa fase Pemilihan MCTS biasanya diperlakukan sebagai urutan masalah Bandit Multi-Armed kecil, dan masalah-masalah itu juga memiliki koneksi yang kuat dengan RL.

TL; DR : MCTS biasanya tidak dipandang sebagai teknik Machine Learning, tetapi jika Anda memeriksanya dengan cermat, Anda dapat menemukan banyak kesamaan dengan ML (khususnya, Reinforcement Learning).

— Dennis Soemers
sumber

1

Selamat datang di ladang ranjau definisi semantik dalam AI! Menurut Encyclopedia Britannica ML adalah "disiplin yang berkaitan dengan implementasi perangkat lunak komputer yang dapat belajar secara mandiri." Ada banyak definisi lain untuk ML tetapi umumnya mereka semua ini samar-samar, mengatakan sesuatu tentang "belajar", "pengalaman", "otonom", dll dalam urutan yang berbeda-beda. Tidak ada definisi tolok ukur yang terkenal yang digunakan kebanyakan orang, jadi kecuali seseorang ingin mengusulkannya, apa pun yang seseorang posting ini perlu didukung oleh referensi.

Menurut definisi Encyclopedia Britannica, kasus untuk memanggil MCTS bagian dari ML cukup kuat (Chaslot, karya Coulom et al. Dari 2006-8 digunakan untuk referensi MCTS). Ada dua kebijakan yang digunakan dalam MCTS, kebijakan pohon dan kebijakan simulasi. Pada saat pengambilan keputusan, kebijakan pohon memperbarui nilai tindakan dengan memperluas struktur pohon dan mencadangkan nilai dari apa pun yang ditemukan dari pencarian. Tidak ada hard-coding di mana node harus dipilih / diperluas; itu semua berasal dari memaksimalkan imbalan dari statistik. Node yang lebih dekat ke root tampak semakin cerdas ketika mereka “belajar” untuk meniru distribusi / keadaan dan / atau nilai-nilai tindakan dari yang sesuai dari kenyataan. Apakah ini dapat disebut "otonom" adalah pertanyaan yang sama sulitnya karena pada akhirnya manusialah yang menulis rumus / teori yang digunakan MCTS.

— Johan
sumber