Pembelajaran penguatan di lingkungan yang tidak stasioner [ditutup]

T1: Apakah ada metode yang umum atau diterima untuk berurusan dengan lingkungan yang tidak stasioner dalam pembelajaran Penguatan secara umum?

T2: Di dunia saya, saya memiliki fungsi hadiah yang berubah ketika negara dikunjungi. Setiap episode hadiah direset ke keadaan awal. Yang saya ingin agen saya pelajari adalah "Jangan kembali kecuali Anda benar-benar perlu", namun ini membuat lingkungan tidak stasioner. Bisakah / Haruskah aturan yang sangat sederhana ini dimasukkan dalam model MDP, dan bagaimana? Apakah Q-learning solusi terbaik untuk mengatasi masalah ini? Ada saran atau contoh yang tersedia?

T3: Saya telah melihat ke dalam Q-learning dengan replay pengalaman sebagai solusi untuk berurusan dengan lingkungan yang tidak stasioner, karena itu berhubungan dengan pembaruan yang berurutan. Apakah ini penggunaan metode yang benar atau lebih untuk membuat belajar lebih efisien data? Dan saya hanya melihatnya digunakan dengan perkiraan nilai. Saya tidak yakin apakah itu berlebihan untuk menggunakannya untuk ruang keadaan diskrit sederhana, seperti gridworld, atau ada alasan berbeda untuk ini.

Silakan menjawab atau berkomentar walaupun Anda tidak dapat menjawab semua pertanyaan.

— Voltronika
sumber

T1: Apakah ada metode yang umum atau diterima untuk berurusan dengan lingkungan yang tidak stasioner dalam pembelajaran Penguatan secara umum?

Sebagian besar agen RL dasar online, dan pembelajaran online biasanya dapat menangani masalah yang tidak tetap. Selain itu, aturan pembaruan untuk nilai negara dan penaksir nilai tindakan dalam masalah kontrol biasanya ditulis untuk target non-stasioner, karena target sudah berubah ketika kebijakan membaik. Ini bukan hal yang rumit, cukup gunakan laju pembelajaran dalam pembaruan saat memperkirakan nilai, secara efektif rata-rata geometris bergulir yang bertentangan dengan rata-rata seluruh sejarah dengan cara yang tidak berbobot. $\alpha$

Namun , ini membahas non-stasioneritas jangka panjang, seperti masalah yang berubah di antara episode, atau dalam skala waktu yang lebih lama. Deskripsi Anda lebih terlihat seperti Anda ingin mengubah struktur hadiah berdasarkan tindakan yang telah dilakukan agen, dalam skala waktu singkat. Respons dinamis terhadap tindakan dibingkai lebih baik sebagai MDP yang lebih kompleks dan berbeda, bukan sebagai "non-stasioneritas" dalam MDP yang lebih sederhana.

Agen tidak dapat mempelajari perubahan pada lingkungan yang belum diambil sampelnya, sehingga mengubah struktur hadiah tidak akan mencegah agen kembali ke negara yang dikunjungi sebelumnya. Kecuali jika Anda menggunakan sesuatu seperti RNN di agen, agen tidak akan memiliki "memori" dari apa yang terjadi sebelumnya dalam episode selain apa pun yang diwakili dalam keadaan saat ini (bisa dibilang menggunakan RNN membuat lapisan tersembunyi dari bagian RNN negara). Di beberapa episode, jika Anda menggunakan agen pembelajaran-Q tabel, maka agen hanya akan belajar bahwa negara-negara tertentu memiliki nilai rendah, itu tidak akan dapat belajar bahwa kunjungan kedua atau ketiga ke negara menyebabkan efek itu, karena tidak memiliki cara untuk mewakili pengetahuan itu. Itu tidak akan dapat menyesuaikan diri dengan perubahan cukup cepat untuk belajar online dan pertengahan episode.

T2: Di dunia saya, saya memiliki fungsi hadiah yang berubah ketika negara dikunjungi. Yang saya ingin agen saya pelajari adalah "Jangan kembali kecuali Anda benar-benar perlu", namun ini membuat lingkungan tidak stasioner.

Jika hanya itu yang Anda butuhkan agen untuk belajar, mungkin ini dapat didorong oleh struktur hadiah yang sesuai. Sebelum Anda bisa melakukan itu, Anda perlu memahami diri Anda sendiri apa arti "benar-benar perlu", dan seberapa ketat hal itu secara logis. Anda mungkin baik-baik saja meskipun hanya dengan menetapkan penalti untuk mengunjungi lokasi mana pun yang telah atau baru-baru ini dikunjungi agen

Bisakah / Haruskah aturan yang sangat sederhana ini dimasukkan dalam model MDP, dan bagaimana?

Ya, Anda harus menambahkan informasi tentang lokasi yang dikunjungi ke dalam status. Ini segera akan membuat model negara Anda lebih kompleks daripada dunia grid sederhana, meningkatkan dimensi masalah, tetapi tidak dapat dihindari. Sebagian besar masalah dunia nyata sangat cepat melampaui contoh mainan yang disediakan untuk mengajarkan konsep RL.

Salah satu alternatif adalah membingkai masalah sebagai Proses Keputusan Markov yang Dapat Diobservasi Sebagian (POMDP) . Jika demikian, kondisi "benar" masih akan mencakup semua riwayat yang diperlukan untuk menghitung imbalan (dan karena ini merupakan masalah mainan di komputer, Anda tetap harus mewakilinya), tetapi agen dapat mencoba belajar dari pembatasan pengetahuan tentang negara, hanya apa pun yang Anda biarkan mengamati. Secara umum ini adalah pendekatan yang jauh lebih sulit daripada memperluas representasi negara, dan saya tidak akan merekomendasikannya di sini. Namun, jika Anda menemukan ide yang menarik, Anda dapat menggunakan masalah Anda untuk menjelajahi POMDP. Berikut ini makalah terbaru (dari tim Google Mind Deep, 2015) yang membahas dua algoritma RL yang dikombinasikan dengan RNN untuk menyelesaikan POMDP.

T3: Saya telah melihat ke dalam Q-learning dengan replay pengalaman sebagai solusi untuk berurusan dengan lingkungan yang tidak stasioner, karena itu berhubungan dengan pembaruan yang berurutan. Apakah ini penggunaan metode yang benar atau lebih untuk membuat belajar lebih efisien data?

Pemutaran pengalaman tidak akan membantu dengan lingkungan yang tidak stasioner. Bahkan itu bisa membuat kinerja mereka lebih buruk. Namun, seperti yang telah dinyatakan, masalah Anda bukan tentang lingkungan yang tidak stasioner, tetapi tentang penanganan dinamika keadaan yang lebih kompleks.

Apa yang mungkin perlu Anda lakukan adalah melihat perkiraan fungsi, jika jumlah negara meningkat ke angka yang cukup besar. Misalnya, jika Anda ingin menangani setiap back-tracking dan memiliki aturan reward-memodifikasi kompleks yang lagu masing-masing lokasi yang dikunjungi, maka negara Anda mungkin berubah dari sejumlah lokasi tunggal untuk sebuah peta yang menunjukkan lokasi yang dikunjungi. Jadi misalnya, ia mungkin berubah dari negara untuk dunia grid ke peta keadaan memperlihatkan kotak yang dikunjungi. Ini terlalu tinggi untuk dilacak dalam tabel nilai, jadi Anda biasanya akan menggunakan jaringan saraf (atau jaringan saraf konvolusional) untuk memperkirakan nilai keadaan. $64$ $8 \times 8$ $2^{64}$

Dengan estimator fungsi, replay pengalaman sangat berguna, karena tanpanya, proses pembelajaran cenderung tidak stabil. Pendekatan DQN terbaru untuk memainkan game Atari menggunakan replay pengalaman karena alasan ini.

— Neil Slater
sumber

Jika lingkungannya tidak stasioner maka bagaimana Anda menghadapi kenyataan bahwa, dalam contoh dunia grid, berada dalam keadaan saat t = 1 tidak sama dengan berada di keadaan itu pada t = 2? Jika Anda memperlakukan mereka sebagai keadaan yang terpisah maka pasti dimensi ruang negara Anda akan meledak?

— Mencoba belajar

@tryingtolearn: Seluruh titik dari kondisi Markov adalah bahwa ia menangkap semua detail penting tentang bagaimana MDP akan berkembang dari titik itu. Biasanya berada dalam keadaan di t = 1 tidak berbeda dari berada di keadaan yang sama di t = 2, dalam hal hadiah yang diharapkan di masa depan dan transisi keadaan. Jika Anda berakhir dengan aturan yang didasarkan pada nilai t, maka Anda memasukkan t ke dalam negara. Ini mungkin terjadi jika Anda bisa mendapatkan hadiah pada setiap langkah waktu, tetapi jumlah langkah waktu terbatas - episode selalu berakhir pada t = 10 misalnya. Dalam hal mengetahui sisa waktu Anda bisa menjadi penting

— Neil Slater

@NeilSlater dapatkah Anda memperluas gagasan POMDP dan RNN dalam jawaban Anda? Kedengarannya menarik. Dan jika mungkin, berikan sumber yang relevan karena kadang-kadang sulit untuk menavigasi literatur. Saya benar-benar tidak menyukai gagasan untuk menjaga urutan negara yang dikunjungi, meskipun ini adalah satu-satunya hal yang dapat saya pikirkan sejauh ini, jadi saya mencari pilihan lain. Model menjadi terlalu rumit seperti itu, mengingat bahwa saya perlu memperkenalkan aturan yang sangat sederhana. Saya tidak yakin apakah saya kehilangan sesuatu yang sangat jelas atau saya hanya tidak menggunakan model dan formulasi yang benar.

— Voltronika

@NeilSlater Tidak bisakah ini dibantu dengan menggunakan hal-hal seperti metode gradien kebijakan? Dalam praktiknya, apakah Anda tahu standar untuk memecahkan masalah semacam ini?

— Mencoba belajar

@Voltronika Saya memperluas jawaban dengan menambahkan paragraf tentang POMDP. Perhatikan bahwa membingkai masalah Anda sebagai POMDP membuatnya lebih sulit untuk dikerjakan dan diselesaikan daripada memperluas status untuk memasukkan memori yang sesuai dari lokasi yang dikunjungi. Jadi saya sarankan Anda hanya melihat bahwa jika mempelajari POMDP adalah tujuan.

— Neil Slater

Q1: Q learning adalah algoritma pembelajaran penguatan online yang bekerja dengan baik dengan lingkungan stasioner. Ini juga dapat digunakan dengan model non-stasioner dengan ketentuan bahwa model (fungsi hadiah dan probabilitas transisi) tidak berubah dengan cepat.

— Khalid Ibrahim
sumber