Pertanyaan yang diberi tag «deep-rl»

4
Mengapa Q-Learning menggunakan epsilon-serakah selama pengujian?
Dalam makalah DeepMind tentang video game Deep Q-Learning untuk Atari (di sini ), mereka menggunakan metode epsilon-serakah untuk eksplorasi selama pelatihan. Ini berarti bahwa ketika suatu tindakan dipilih dalam pelatihan, tindakan tersebut dapat dipilih sebagai tindakan dengan nilai q tertinggi, atau tindakan acak. Memilih antara keduanya adalah acak dan berdasarkan …
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.