Dalam makalah DeepMind tentang video game Deep Q-Learning untuk Atari (di sini ), mereka menggunakan metode epsilon-serakah untuk eksplorasi selama pelatihan. Ini berarti bahwa ketika suatu tindakan dipilih dalam pelatihan, tindakan tersebut dapat dipilih sebagai tindakan dengan nilai q tertinggi, atau tindakan acak. Memilih antara keduanya adalah acak dan berdasarkan pada nilai epsilon, dan epsilon dianil selama pelatihan sehingga pada awalnya, banyak tindakan acak diambil (eksplorasi), tetapi saat pelatihan berlangsung, banyak tindakan dengan nilai q maksimum diambil (eksploitasi).
Kemudian, selama pengujian, mereka juga menggunakan metode epsilon-serakah ini, tetapi dengan epsilon pada nilai yang sangat rendah, sehingga ada bias yang kuat terhadap eksploitasi dibandingkan eksplorasi, lebih memilih memilih tindakan dengan nilai q tertinggi daripada tindakan acak. Namun, tindakan acak masih terkadang dipilih (5% dari waktu).
Pertanyaan saya adalah: Mengapa eksplorasi diperlukan pada saat ini, mengingat pelatihan telah dilakukan? Jika sistem telah mempelajari kebijakan optimal, lalu mengapa tindakan tidak dapat selalu dipilih sebagai tindakan dengan nilai q tertinggi? Bukankah eksplorasi harus dilakukan hanya dalam pelatihan, dan kemudian setelah kebijakan optimal dipelajari, agen hanya bisa berulang kali memilih tindakan optimal?
Terima kasih!