Saya bukan spesialis masalah ini, dan pertanyaan saya mungkin sangat naif. Ini berasal dari esai untuk memahami kekuatan dan keterbatasan pembelajaran penguatan seperti yang digunakan dalam program AlphaGo.
Program AlphaGo telah dibangun menggunakan, antara lain (penjelajahan Monte-Carlo pohon, dll.), Jaringan saraf yang dilatih dari database besar game go yang dimainkan manusia, dan yang kemudian diperkuat dengan membiarkan versi play dari Program terhadap dirinya sendiri berkali-kali.
Sekarang saya bertanya-tanya apa yang akan terjadi adalah kami mencoba membangun program seperti itu tanpa basis data manusia, yaitu mulai dengan program dasar Go just mengetahui aturan dan beberapa metode untuk mengeksplorasi pohon, dan membiarkan bermain melawan dirinya sendiri untuk meningkatkan jaringan sarafnya. Akankah kita, setelah banyak pertandingan melawan dirinya sendiri, tiba di sebuah program yang mampu bersaing dengan atau mengalahkan pemain manusia terbaik? Dan jika demikian, berapa banyak game (dalam urutan besarnya) yang dibutuhkan untuk itu? Atau sebaliknya, akankah program seperti itu bertemu dengan pemain yang jauh lebih lemah?
Saya berasumsi bahwa percobaan belum dilakukan, karena AlphaGo sangat baru. Tetapi jawabannya mungkin jelas bagi seorang spesialis. Kalau tidak, tebakan yang berpendidikan akan menarik minat saya.
Orang juga dapat mengajukan pertanyaan yang sama untuk game "sederhana". Jika kita menggunakan teknik pembelajaran penguatan yang kira-kira sama dengan yang digunakan untuk AlphaGo, tetapi tanpa menggunakan basis data manusia, untuk program Catur, akankah kita akhirnya mendapatkan program yang mampu mengalahkan manusia terbaik? Dan jika demikian, seberapa cepat? Apakah ini sudah dicoba? Atau jika bukan karena Catur, bagaimana dengan Catur, atau bahkan permainan yang lebih sederhana?
Terima kasih banyak.