T1: Apakah ada metode yang umum atau diterima untuk berurusan dengan lingkungan yang tidak stasioner dalam pembelajaran Penguatan secara umum?
Sebagian besar agen RL dasar online, dan pembelajaran online biasanya dapat menangani masalah yang tidak tetap. Selain itu, aturan pembaruan untuk nilai negara dan penaksir nilai tindakan dalam masalah kontrol biasanya ditulis untuk target non-stasioner, karena target sudah berubah ketika kebijakan membaik. Ini bukan hal yang rumit, cukup gunakan laju pembelajaran dalam pembaruan saat memperkirakan nilai, secara efektif rata-rata geometris bergulir yang bertentangan dengan rata-rata seluruh sejarah dengan cara yang tidak berbobot.α
Namun , ini membahas non-stasioneritas jangka panjang, seperti masalah yang berubah di antara episode, atau dalam skala waktu yang lebih lama. Deskripsi Anda lebih terlihat seperti Anda ingin mengubah struktur hadiah berdasarkan tindakan yang telah dilakukan agen, dalam skala waktu singkat. Respons dinamis terhadap tindakan dibingkai lebih baik sebagai MDP yang lebih kompleks dan berbeda, bukan sebagai "non-stasioneritas" dalam MDP yang lebih sederhana.
Agen tidak dapat mempelajari perubahan pada lingkungan yang belum diambil sampelnya, sehingga mengubah struktur hadiah tidak akan mencegah agen kembali ke negara yang dikunjungi sebelumnya. Kecuali jika Anda menggunakan sesuatu seperti RNN di agen, agen tidak akan memiliki "memori" dari apa yang terjadi sebelumnya dalam episode selain apa pun yang diwakili dalam keadaan saat ini (bisa dibilang menggunakan RNN membuat lapisan tersembunyi dari bagian RNN negara). Di beberapa episode, jika Anda menggunakan agen pembelajaran-Q tabel, maka agen hanya akan belajar bahwa negara-negara tertentu memiliki nilai rendah, itu tidak akan dapat belajar bahwa kunjungan kedua atau ketiga ke negara menyebabkan efek itu, karena tidak memiliki cara untuk mewakili pengetahuan itu. Itu tidak akan dapat menyesuaikan diri dengan perubahan cukup cepat untuk belajar online dan pertengahan episode.
T2: Di dunia saya, saya memiliki fungsi hadiah yang berubah ketika negara dikunjungi. Yang saya ingin agen saya pelajari adalah "Jangan kembali kecuali Anda benar-benar perlu", namun ini membuat lingkungan tidak stasioner.
Jika hanya itu yang Anda butuhkan agen untuk belajar, mungkin ini dapat didorong oleh struktur hadiah yang sesuai. Sebelum Anda bisa melakukan itu, Anda perlu memahami diri Anda sendiri apa arti "benar-benar perlu", dan seberapa ketat hal itu secara logis. Anda mungkin baik-baik saja meskipun hanya dengan menetapkan penalti untuk mengunjungi lokasi mana pun yang telah atau baru-baru ini dikunjungi agen
Bisakah / Haruskah aturan yang sangat sederhana ini dimasukkan dalam model MDP, dan bagaimana?
Ya, Anda harus menambahkan informasi tentang lokasi yang dikunjungi ke dalam status. Ini segera akan membuat model negara Anda lebih kompleks daripada dunia grid sederhana, meningkatkan dimensi masalah, tetapi tidak dapat dihindari. Sebagian besar masalah dunia nyata sangat cepat melampaui contoh mainan yang disediakan untuk mengajarkan konsep RL.
Salah satu alternatif adalah membingkai masalah sebagai Proses Keputusan Markov yang Dapat Diobservasi Sebagian (POMDP) . Jika demikian, kondisi "benar" masih akan mencakup semua riwayat yang diperlukan untuk menghitung imbalan (dan karena ini merupakan masalah mainan di komputer, Anda tetap harus mewakilinya), tetapi agen dapat mencoba belajar dari pembatasan pengetahuan tentang negara, hanya apa pun yang Anda biarkan mengamati. Secara umum ini adalah pendekatan yang jauh lebih sulit daripada memperluas representasi negara, dan saya tidak akan merekomendasikannya di sini. Namun, jika Anda menemukan ide yang menarik, Anda dapat menggunakan masalah Anda untuk menjelajahi POMDP. Berikut ini makalah terbaru (dari tim Google Mind Deep, 2015) yang membahas dua algoritma RL yang dikombinasikan dengan RNN untuk menyelesaikan POMDP.
T3: Saya telah melihat ke dalam Q-learning dengan replay pengalaman sebagai solusi untuk berurusan dengan lingkungan yang tidak stasioner, karena itu berhubungan dengan pembaruan yang berurutan. Apakah ini penggunaan metode yang benar atau lebih untuk membuat belajar lebih efisien data?
Pemutaran pengalaman tidak akan membantu dengan lingkungan yang tidak stasioner. Bahkan itu bisa membuat kinerja mereka lebih buruk. Namun, seperti yang telah dinyatakan, masalah Anda bukan tentang lingkungan yang tidak stasioner, tetapi tentang penanganan dinamika keadaan yang lebih kompleks.
Apa yang mungkin perlu Anda lakukan adalah melihat perkiraan fungsi, jika jumlah negara meningkat ke angka yang cukup besar. Misalnya, jika Anda ingin menangani setiap back-tracking dan memiliki aturan reward-memodifikasi kompleks yang lagu masing-masing lokasi yang dikunjungi, maka negara Anda mungkin berubah dari sejumlah lokasi tunggal untuk sebuah peta yang menunjukkan lokasi yang dikunjungi. Jadi misalnya, ia mungkin berubah dari negara untuk dunia grid ke peta keadaan memperlihatkan kotak yang dikunjungi. Ini terlalu tinggi untuk dilacak dalam tabel nilai, jadi Anda biasanya akan menggunakan jaringan saraf (atau jaringan saraf konvolusional) untuk memperkirakan nilai keadaan.8 × 8 2 64648 × 8264
Dengan estimator fungsi, replay pengalaman sangat berguna, karena tanpanya, proses pembelajaran cenderung tidak stabil. Pendekatan DQN terbaru untuk memainkan game Atari menggunakan replay pengalaman karena alasan ini.