Statistik dan Big Data deep-rl

Mengapa Q-Learning menggunakan epsilon-serakah selama pengujian?

Dalam makalah DeepMind tentang video game Deep Q-Learning untuk Atari (di sini ), mereka menggunakan metode epsilon-serakah untuk eksplorasi selama pelatihan. Ini berarti bahwa ketika suatu tindakan dipilih dalam pelatihan, tindakan tersebut dapat dipilih sebagai tindakan dengan nilai q tertinggi, atau tindakan acak. Memilih antara keduanya adalah acak dan berdasarkan …

18 machine-learning reinforcement-learning q-learning deep-rl

Pertanyaan yang diberi tag «deep-rl»