Saya ragu tentang bagaimana tepatnya fungsi kerugian dari Deep Q-Learning Network dilatih. Saya menggunakan jaringan feedforward 2 layer dengan lapisan output linear dan lapisan tersembunyi relu.
- Anggaplah saya memiliki 4 tindakan yang memungkinkan. Dengan demikian, output dari jaringan saya untuk keadaan saat ini adalah . Untuk membuatnya lebih konkret, mari kita asumsikan
- Sekarang saya mengambil tindakan sesuai dengan nilai yaitu tindakan ke-3, dan mencapai status baru .
- Selanjutnya, saya menghitung lintasan maju dengan keadaan dan katakanlah saya mendapatkan nilai-nilai berikut pada lapisan keluaran . Juga katakanlah hadiah , dan .
Apakah kerugian diberikan oleh:
ATAU
ATAU
Terima kasih, maaf saya harus menulis ini dengan cara yang sangat mendasar ... Saya bingung dengan semua notasi. (Saya pikir jawaban yang benar adalah yang kedua ...)