TL; DR.
Fakta bahwa tingkat diskonto dibatasi menjadi lebih kecil dari 1 adalah trik matematika untuk membuat jumlah terbatas tak hingga. Ini membantu membuktikan konvergensi algoritma tertentu.
Dalam praktiknya, faktor diskonto dapat digunakan untuk memodelkan fakta bahwa pembuat keputusan tidak pasti tentang apakah dalam keputusan berikutnya instan dunia (misalnya, lingkungan / permainan / proses ) akan berakhir.
Sebagai contoh:
Jika pembuat keputusan adalah robot, faktor diskon bisa menjadi probabilitas bahwa robot dimatikan di waktu berikutnya (dunia berakhir dalam terminologi sebelumnya). Itulah alasan mengapa robot ini terlihat pendek dan tidak mengoptimalkan jumlah hadiah tetapi
jumlah hadiah diskon .
Faktor diskon lebih kecil dari 1 (Rincian)
Untuk menjawab lebih tepatnya, mengapa tingkat diskonto harus lebih kecil dari yang saya pertama kali akan memperkenalkan Proses Keputusan Markov (MDPs).
Teknik pembelajaran penguatan dapat digunakan untuk menyelesaikan MDP. MDP menyediakan kerangka kerja matematis untuk memodelkan situasi pengambilan keputusan di mana hasilnya sebagian acak dan sebagian di bawah kendali pengambil keputusan. MDP didefinisikan melalui ruang keadaan , ruang tindakan , fungsi probabilitas transisi antar negara (dikondisikan untuk tindakan yang diambil oleh pembuat keputusan), dan fungsi hadiah.SA
Dalam pengaturan dasarnya, pembuat keputusan mengambil dan bertindak, dan mendapat hadiah dari lingkungan, dan lingkungan mengubah kondisinya. Kemudian pembuat keputusan merasakan keadaan lingkungan, mengambil tindakan, mendapat hadiah, dan sebagainya. Transisi negara bersifat probabilistik dan hanya bergantung pada keadaan aktual dan tindakan yang diambil oleh pembuat keputusan. Hadiah yang diperoleh oleh pembuat keputusan tergantung pada tindakan yang diambil, dan pada kondisi lingkungan asli dan baru.
Hadiah diperoleh ketika mengambil tindakan dalam keadaan dan lingkungan / sistem berubah menjadi keadaan setelah pembuat keputusan mengambil tindakan . Pembuat keputusan mengikuti kebijakan, , yang untuk setiap negara bagian mengambil tindakan . Sehingga kebijakan itulah yang memberi tahu pembuat keputusan tindakan apa yang harus diambil di setiap negara bagian. Kebijakan dapat diacak juga tetapi tidak masalah untuk saat ini.Rai(sj,sk)aisjskaiπ π(⋅):S→Asj∈Sai∈Aπ
Tujuannya adalah untuk menemukan kebijakan sedemikian rupaπ
maxπ:S(n)→ailimT→∞E{∑n=1TβnRxi(S(n),S(n+1))}(1),
mana adalah faktor diskon dan .ββ<1
Perhatikan bahwa masalah pengoptimalan di atas, memiliki horizon waktu tak terbatas ( ), dan tujuannya adalah untuk memaksimalkan jumlah hadiah (hadiah dikalikan dengan ). Ini biasanya disebut masalah MDP dengan kriteria hadiah diskon cakrawala tak terbatas .T→∞discountedRβn
Masalahnya disebut diskon karena . Jika itu bukan masalah diskon jumlahnya tidak akan bertemu. Semua kebijakan yang telah memperoleh rata-rata hadiah positif pada setiap saat instan akan berjumlah hingga tak terbatas. Akan menjadi kriteria reward cakrawala jumlah terbatas , dan bukan merupakan kriteria optimasi yang baik.β<1β=1
Ini adalah contoh mainan untuk menunjukkan kepada Anda apa yang saya maksud:
Asumsikan bahwa hanya ada dua tindakan yang mungkin dan bahwa fungsi hadiah sama dengan jika , dan jika (hadiah tidak tergantung pada keadaan).a=0,1R1a=10a=0
Jelas bahwa kebijakan yang mendapatkan hadiah lebih banyak adalah selalu mengambil tindakan dan tidak pernah bertindak . Saya akan menelepon kebijakan ini . Saya akan membandingkan dengan kebijakan lain yang mengambil tindakan dengan probabilitas kecil , dan tindakan sebaliknya.a=1a=0π∗π∗π′a=1α<<1a=0
Dalam persamaan kriteria diskon diskon cakrawala tak terbatas (1) menjadi (jumlah deret geometri) untuk polis sedangkan untuk polis persamaan kebijakan (1) menjadi . Karena , kami mengatakan bahwa adalah kebijakan yang lebih baik daripada . Sebenarnya adalah kebijakan optimal.11−βπ∗π′α1−β11−β>α1−βπ∗π′π∗
Dalam kriteria jumlah horison jumlah yang tak terbatas ( ) persamaan (1) tidak menyatu untuk salah satu kebijakan (jumlahnya hingga tak terbatas). Jadi, sementara polis mencapai imbalan yang lebih tinggi daripada kedua polis itu sama menurut kriteria ini. Itulah salah satu alasan mengapa kriteria hadiah horizon tak terbatas tidak berguna.β=1ππ′
Seperti yang saya sebutkan sebelumnya, membuat trik membuat jumlah dalam persamaan (1) bertemu.β<1
Kriteria optimalitas lainnya
Ada kriteria optimalitas lain yang tidak memaksakan itu :β<1
Kasus kriteria horizon hingga tujuannya adalah untuk memaksimalkan hadiah diskon hingga horizon waktuT
maxπ:S(n)→aiE{∑n=1TβnRxi(S(n),S(n+1))},
untuk dan hingga.β≤1T
Dalam kriteria imbalan rata-rata horizon tak terbatas tujuannya adalah
maxπ:S(n)→ailimT→∞E{∑n=1T1TRxi(S(n),S(n+1))},
Catatan akhir
Bergantung pada kriteria optimalitas seseorang akan menggunakan algoritma yang berbeda untuk menemukan kebijakan yang optimal. Sebagai contoh, kebijakan optimal dari masalah horizon terbatas akan bergantung pada keadaan dan waktu instan aktual. Sebagian besar algoritma Pembelajaran Penguatan (seperti SARSA atau pembelajaran-Q) menyatu dengan kebijakan optimal hanya untuk diskon kriteria imbalan cakrawala tak terbatas diskon (hal yang sama terjadi untuk algoritma pemrograman Dinamis). Untuk kriteria hadiah rata-rata tidak ada algoritma yang telah ditunjukkan untuk menyatu dengan kebijakan optimal, namun seseorang dapat menggunakan R-learning yang memiliki kinerja yang baik meskipun tidak konvergensi teoritis yang baik.