Fungsi hadiah menggambarkan bagaimana agen "seharusnya" berperilaku. Dengan kata lain, mereka memiliki konten "normatif", menetapkan apa yang ingin dicapai agen. Sebagai contoh, beberapa penghargaan negara s mungkin mewakili rasa makanan. Atau mungkin, (s,a) mungkin mewakili tindakan mencicipi makanan. Jadi, sejauh fungsi hadiah menentukan apa motivasi agen, ya, Anda harus menebusnya!
Tidak ada batasan absolut, tetapi jika fungsi hadiah Anda "berperilaku lebih baik", agen akan belajar lebih baik. Secara praktis, ini berarti kecepatan konvergensi, dan tidak terjebak dalam minimum lokal. Tetapi spesifikasi lebih lanjut akan sangat bergantung pada spesies pembelajaran penguatan yang Anda gunakan. Misalnya, apakah ruang keadaan / tindakan terus menerus atau terpisah? Apakah dunia atau pemilihan aksi stokastik? Apakah hadiah terus dipanen, atau hanya di akhir?
Salah satu cara untuk melihat masalah adalah bahwa fungsi hadiah menentukan kekerasan masalah. Sebagai contoh, secara tradisional, kita dapat menentukan satu negara yang akan dihargai:
R(s1)=1
R(s2..n)=0
Dalam kasus ini, masalah yang harus dipecahkan cukup sulit, dibandingkan dengan, katakanlah, R(si)=1/i2 , di mana ada gradien hadiah di atas status. Untuk masalah yang sulit, tentukan lebih detail, misalnya R(s,a) atau R(s,a,s′) dapat membantu beberapa algoritma dengan memberikan petunjuk tambahan, tetapi berpotensi dengan biaya yang membutuhkan eksplorasi lebih lanjut. Anda mungkin perlu memasukkan biaya sebagai persyaratan negatif dalamR (mis.Biaya energetik), untuk membuat masalah tersebut ditentukan dengan baik.
Untuk kasus ruang keadaan kontinu, jika Anda ingin agen belajar dengan mudah, fungsi hadiah harus kontinu dan dapat dibedakan . Jadi polinomial dapat bekerja dengan baik untuk banyak algoritma. Selanjutnya, cobalah untuk menghapus minimal lokal. Ada sejumlah contoh bagaimana TIDAK membuat fungsi hadiah - seperti fungsi Rastrigin . Karena itu, beberapa algoritma RL (misalnya mesin Boltzmann ) agak kuat untuk ini.
Jika Anda menggunakan RL untuk memecahkan masalah dunia nyata, Anda mungkin akan menemukan bahwa meskipun menemukan fungsi hadiah adalah bagian tersulit dari masalah, itu terkait erat dengan bagaimana Anda menentukan ruang negara . Misalnya, dalam masalah yang tergantung waktu, jarak ke tujuan sering membuat fungsi hadiah yang buruk (misalnya dalam masalah mobil gunung ). Situasi seperti itu dapat diselesaikan dengan menggunakan ruang keadaan dimensional yang lebih tinggi (keadaan tersembunyi atau jejak memori), atau dengan RL hierarkis.
Pada tingkat abstrak, pembelajaran tanpa pengawasan seharusnya meniadakan penetapan kinerja "benar dan salah". Tapi kita bisa melihat sekarang bahwa RL hanya mengalihkan tanggung jawab dari guru / kritikus ke fungsi hadiah. Ada cara yang kurang melingkar untuk memecahkan masalah: yaitu, untuk menyimpulkan fungsi hadiah terbaik . Salah satu metode disebut RL terbalik atau "pembelajaran magang" , yang menghasilkan fungsi hadiah yang akan mereproduksi perilaku yang diamati. Menemukan fungsi hadiah terbaik untuk mereproduksi serangkaian pengamatan juga dapat diimplementasikan oleh MLE, Bayesian, atau metode teori informasi - jika Anda mencari "pembelajaran penguatan inversi".