Saya telah menerapkan Q-Learning seperti yang dijelaskan dalam,
http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf
Untuk sekitar. T (S, A) Saya menggunakan struktur jaringan saraf seperti berikut,
- Aktivasi sigmoid
- Input, jumlah input + 1 untuk neuron Aksi (Semua Input Ditskala 0-1)
- Keluaran, keluaran tunggal. Nilai-Q
- N jumlah M Lapisan Tersembunyi.
- Metode eksplorasi acak 0 <rand () <propExplore
Pada setiap iterasi pembelajaran menggunakan rumus berikut,
Saya menghitung nilai Target-Q lalu menghitung kesalahan menggunakan,
error = QTarget - LastQValueReturnedFromNN
dan kembali menyebarkan kesalahan melalui jaringan saraf.
Q1, Apakah saya di jalur yang benar? Saya telah melihat beberapa makalah yang menerapkan NN dengan satu neuron output untuk setiap tindakan.
T2, Fungsi hadiah saya mengembalikan angka antara -1 dan 1. Apakah boleh mengembalikan angka antara -1 dan 1 saat fungsi aktivasi sigmoid (0 1)
T3, Dari pemahaman saya tentang metode ini diberikan contoh pelatihan yang cukup itu harus dikarantina untuk menemukan bobot kebijakan yang optimal? Ketika pelatihan untuk XOR kadang-kadang ia mempelajarinya setelah iterasi 2k kadang-kadang tidak belajar bahkan setelah iterasi 40k 50k.