Dalam pembelajaran penguatan, kami memiliki fungsi hadiah yang menginformasikan agen seberapa baik tindakan dan negara saat ini dilakukan. Dalam beberapa pengaturan umum fungsi hadiah adalah fungsi dari tiga variabel:
- Keadaan saat ini
- Tindakan saat ini pada kondisi saat ini
- Keadaan selanjutnya
Jadi terlihat seperti:
Apa pertanyaan saya (yang mungkin salah paham saya), biasanya orang yang menggunakan pembelajaran penguatan memutuskan apa hadiahnya. Misalnya, ia menetapkan 1000 poin untuk mencapai tujuan, atau memberikan -1000 poin untuk menabrak robot otonom. Dalam skenario ini, tidak jelas bagi saya mengapa kita perlu sampel untuk belajar R. R adalah apriori yang ditentukan dan kemudian kita menggunakan agen kami. Baik? Namun, saya tahu saya salah karena dalam catatan Andrew Ng ia berkata:
Di mana dia mengatakan bahwa kita tidak tahu fungsi hadiah secara eksplisit. Bagi saya itu aneh. Saya tahu saya salah dan saya akan senang jika ada yang bisa menjelaskan kepada saya dalam skenario apa kita sebenarnya harus belajar R dari sampel?
(jelas, probabilitas transisi harus dipelajari karena seseorang tidak tahu bagaimana lingkungan akan membuat agen kami bergerak apriori).