Pertanyaan yang diberi tag «reinforcement-learning»

Untuk pertanyaan yang terkait dengan pembelajaran yang dikendalikan oleh penguatan positif eksternal atau sinyal umpan balik negatif atau keduanya, di mana pembelajaran dan penggunaan apa yang telah dipelajari sejauh ini terjadi secara bersamaan.


1
Apa hubungan antara metode Q-learning dan kebijakan gradien?
Sejauh yang saya mengerti, Q-learning dan gradien kebijakan (PG) adalah dua pendekatan utama yang digunakan untuk memecahkan masalah RL. Sementara Q-learning bertujuan untuk memprediksi imbalan dari tindakan tertentu yang diambil dalam keadaan tertentu, gradien kebijakan langsung memprediksi tindakan itu sendiri. Namun, kedua pendekatan tersebut tampak identik dengan saya, yaitu memprediksi …

4
Bagaimana cara menangani gerakan yang tidak valid dalam pembelajaran penguatan?
Saya ingin membuat AI yang bisa memainkan lima-dalam-baris / gomoku. Seperti yang saya sebutkan dalam judul, saya ingin menggunakan pembelajaran penguatan untuk ini. Saya menggunakan metode gradien kebijakan , yaitu REINFORCE, dengan baseline. Untuk perkiraan nilai dan fungsi kebijakan, saya menggunakan jaringan saraf . Ini memiliki lapisan convolutional dan sepenuhnya …

2
Bagaimana mendefinisikan negara dalam pembelajaran penguatan?
Saya belajar penguatan belajar dan variasinya. Saya mulai mendapatkan pemahaman tentang bagaimana algoritma bekerja dan bagaimana mereka berlaku untuk MDP. Yang tidak saya mengerti adalah proses mendefinisikan status MDP. Dalam sebagian besar contoh dan tutorial, mereka mewakili sesuatu yang sederhana seperti kotak di kotak atau serupa. Untuk masalah yang lebih …



1
Mengapa Anda tidak melihat lapisan dropout pada contoh pembelajaran penguatan?
Saya telah melihat pembelajaran penguatan, dan secara khusus bermain-main dengan menciptakan lingkungan saya sendiri untuk digunakan dengan OpenAI Gym AI. Saya menggunakan agen dari proyek stable_baselines untuk mengujinya. Satu hal yang saya perhatikan di hampir semua contoh RL adalah bahwa sepertinya tidak pernah ada lapisan dropout di salah satu jaringan. …


1
Mengapa DQN memerlukan dua jaringan yang berbeda?
Aku akan melalui ini pelaksanaan DQN dan saya melihat bahwa pada baris 124 dan 125 dua jaringan yang berbeda Q telah diinisialisasi. Dari pemahaman saya, saya pikir satu jaringan memprediksi tindakan yang tepat dan jaringan kedua memprediksi nilai target Q untuk menemukan kesalahan Bellman. Mengapa kita tidak bisa hanya membuat …


2
Mengapa Q-learning tidak bertemu ketika menggunakan perkiraan fungsi?
Algoritma Q-learning tabular dijamin untuk menemukan fungsi QQQ optimal , Q∗Q∗Q^* , asalkan kondisi berikut (kondisi Robbins-Monro ) mengenai tingkat pembelajaran terpenuhi ∑tαt(s,a)=∞∑tαt(s,Sebuah)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)&lt;∞∑tαt2(s,Sebuah)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty di mana αt(s,a)αt(s,a)\alpha_t(s, a) berarti tingkat pembelajaran yang digunakan ketika memperbarui nilai QQQ terkait dengan keadaan sss dan …

3
Mengapa tingkat diskonto dalam algoritma REINFORCE muncul dua kali?
Saya membaca buku Reinforcement Learning: An Introduction oleh Richard S. Sutton dan Andrew G. Barto (draft lengkap, 5 November 2017). Pada halaman 271, pseudo-code untuk Metode Gradient Kebijakan-Gradien Episodik disajikan. Melihat pseudo-code ini saya tidak bisa mengerti mengapa tampaknya tingkat diskonto muncul 2 kali, sekali dalam keadaan pembaruan dan kedua …

1
Bagaimana cara agar tetap menjadi peneliti terkini di komunitas ML / RL?
Sebagai seorang siswa yang ingin mengerjakan pembelajaran mesin, saya ingin tahu bagaimana mungkin untuk memulai studi saya dan bagaimana mengikutinya agar tetap up-to-date. Misalnya, saya bersedia mengerjakan masalah RL dan MAB, tetapi ada banyak literatur tentang topik ini. Selain itu, topik ini dipelajari oleh para peneliti dari komunitas yang berbeda …

1
Bagaimana gradien kebijakan dapat diterapkan dalam kasus beberapa tindakan berkelanjutan?
Optimalisasi Kebijakan Wilayah Tepercaya (TRPO) dan Optimasi Kebijakan Proksimal (PPO) adalah dua algoritma gradien kebijakan canggih. Saat menggunakan tindakan kontinu tunggal, biasanya, Anda akan menggunakan beberapa distribusi probabilitas (misalnya, Gaussian) untuk fungsi kerugian. Versi kasarnya adalah: L ( θ ) = log( P( a1) ) A ,L.(θ)=catatan⁡(P(Sebuah1))SEBUAH,L(\theta) = \log(P(a_1)) A, …

3
Apakah kebijakan optimal selalu stokastik jika lingkungannya juga stokastik?
Apakah kebijakan optimal selalu stokastik (yaitu, peta dari negara ke distribusi probabilitas atas tindakan) jika lingkungan juga stokastik? Secara intuitif, jika lingkungan bersifat deterministik (yaitu, jika agen dalam keadaan sss dan mengambil tindakan aaa , maka keadaan selanjutnya s′s′s' selalu sama, tidak peduli langkah waktu mana), maka kebijakan yang optimal …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.