Kecerdasan buatan reinforcement-learning

6

Apa perbedaan antara pembelajaran penguatan model dan berbasis model?

Apa perbedaan antara pembelajaran penguatan model dan berbasis model? Tampaknya bagi saya bahwa setiap pelajar yang bebas model, belajar melalui coba-coba, dapat dibingkai ulang sebagai berbasis model. Dalam hal itu, kapankah pelajar yang bebas model pantas?

29 reinforcement-learning comparison model-based model-free

1

Apa hubungan antara metode Q-learning dan kebijakan gradien?

Sejauh yang saya mengerti, Q-learning dan gradien kebijakan (PG) adalah dua pendekatan utama yang digunakan untuk memecahkan masalah RL. Sementara Q-learning bertujuan untuk memprediksi imbalan dari tindakan tertentu yang diambil dalam keadaan tertentu, gradien kebijakan langsung memprediksi tindakan itu sendiri. Namun, kedua pendekatan tersebut tampak identik dengan saya, yaitu memprediksi …

21 reinforcement-learning q-learning policy-gradients comparison

4

Bagaimana cara menangani gerakan yang tidak valid dalam pembelajaran penguatan?

Saya ingin membuat AI yang bisa memainkan lima-dalam-baris / gomoku. Seperti yang saya sebutkan dalam judul, saya ingin menggunakan pembelajaran penguatan untuk ini. Saya menggunakan metode gradien kebijakan , yaitu REINFORCE, dengan baseline. Untuk perkiraan nilai dan fungsi kebijakan, saya menggunakan jaringan saraf . Ini memiliki lapisan convolutional dan sepenuhnya …

20 machine-learning reinforcement-learning game-ai combinatorial-games

2

Bagaimana mendefinisikan negara dalam pembelajaran penguatan?

Saya belajar penguatan belajar dan variasinya. Saya mulai mendapatkan pemahaman tentang bagaimana algoritma bekerja dan bagaimana mereka berlaku untuk MDP. Yang tidak saya mengerti adalah proses mendefinisikan status MDP. Dalam sebagian besar contoh dan tutorial, mereka mewakili sesuatu yang sederhana seperti kotak di kotak atau serupa. Untuk masalah yang lebih …

14 reinforcement-learning

2

Apa efisiensi sampel, dan bagaimana pentingnya sampling dapat digunakan untuk mencapainya?

Misalnya, judul makalah ini berbunyi: "Contoh Aktor-Kritik yang Efisien dengan Putar Ulang Pengalaman". Apa efisiensi sampel , dan bagaimana pentingnya sampling dapat digunakan untuk mencapainya?

14 reinforcement-learning statistical-ai importance-sampling

3

Apakah ada aplikasi pembelajaran penguatan selain game?

Apakah ada cara untuk mengajarkan pembelajaran penguatan dalam aplikasi selain game? Satu-satunya contoh yang dapat saya temukan di Internet adalah agen permainan. Saya mengerti bahwa VNC mengendalikan input ke game melalui jaringan penguatan. Apakah mungkin untuk mengatur ini dengan mengatakan perangkat lunak CAD?

13 reinforcement-learning applications

1

Mengapa Anda tidak melihat lapisan dropout pada contoh pembelajaran penguatan?

Saya telah melihat pembelajaran penguatan, dan secara khusus bermain-main dengan menciptakan lingkungan saya sendiri untuk digunakan dengan OpenAI Gym AI. Saya menggunakan agen dari proyek stable_baselines untuk mengujinya. Satu hal yang saya perhatikan di hampir semua contoh RL adalah bahwa sepertinya tidak pernah ada lapisan dropout di salah satu jaringan. …

13 machine-learning reinforcement-learning overfitting dropout

1

Kapan saya harus menggunakan Penguatan Pembelajaran vs Kontrol PID?

Ketika merancang solusi untuk masalah-masalah seperti Lunar Lander di OpenAIGym , Reinforcement Learning adalah cara yang menggoda untuk memberikan agen kontrol tindakan yang memadai agar berhasil mendarat. Tapi apa contoh di mana algoritma sistem kontrol, seperti pengontrol PID , akan melakukan pekerjaan yang memadai seperti, jika tidak lebih baik daripada, …

12 reinforcement-learning ai-design control-theory

1

Mengapa DQN memerlukan dua jaringan yang berbeda?

Aku akan melalui ini pelaksanaan DQN dan saya melihat bahwa pada baris 124 dan 125 dua jaringan yang berbeda Q telah diinisialisasi. Dari pemahaman saya, saya pikir satu jaringan memprediksi tindakan yang tepat dan jaringan kedua memprediksi nilai target Q untuk menemukan kesalahan Bellman. Mengapa kita tidak bisa hanya membuat …

12 reinforcement-learning q-learning dqn

3

Bagaimana menerapkan ruang tindakan terbatas dalam pembelajaran penguatan?

Saya mengkode model pembelajaran penguatan dengan agen PPO berkat perpustakaan Tensorforce yang sangat baik , dibangun di atas Tensorflow. Versi pertama sangat sederhana dan saya sekarang menyelam ke lingkungan yang lebih kompleks di mana semua tindakan tidak tersedia di setiap langkah. Katakanlah ada 5 tindakan dan ketersediaannya tergantung pada keadaan …

12 deep-learning reinforcement-learning

2

Mengapa Q-learning tidak bertemu ketika menggunakan perkiraan fungsi?

Algoritma Q-learning tabular dijamin untuk menemukan fungsi QQQ optimal , Q∗Q∗Q^* , asalkan kondisi berikut (kondisi Robbins-Monro ) mengenai tingkat pembelajaran terpenuhi ∑tαt(s,a)=∞∑tαt(s,Sebuah)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)<∞∑tαt2(s,Sebuah)<∞\sum_{t} \alpha_t^2(s, a) < \infty di mana αt(s,a)αt(s,a)\alpha_t(s, a) berarti tingkat pembelajaran yang digunakan ketika memperbarui nilai QQQ terkait dengan keadaan sss dan …

12 reinforcement-learning q-learning deep-rl proofs function-approximation

3

Mengapa tingkat diskonto dalam algoritma REINFORCE muncul dua kali?

Saya membaca buku Reinforcement Learning: An Introduction oleh Richard S. Sutton dan Andrew G. Barto (draft lengkap, 5 November 2017). Pada halaman 271, pseudo-code untuk Metode Gradient Kebijakan-Gradien Episodik disajikan. Melihat pseudo-code ini saya tidak bisa mengerti mengapa tampaknya tingkat diskonto muncul 2 kali, sekali dalam keadaan pembaruan dan kedua …

11 reinforcement-learning algorithm rl-an-introduction reinforce

1

Bagaimana cara agar tetap menjadi peneliti terkini di komunitas ML / RL?

Sebagai seorang siswa yang ingin mengerjakan pembelajaran mesin, saya ingin tahu bagaimana mungkin untuk memulai studi saya dan bagaimana mengikutinya agar tetap up-to-date. Misalnya, saya bersedia mengerjakan masalah RL dan MAB, tetapi ada banyak literatur tentang topik ini. Selain itu, topik ini dipelajari oleh para peneliti dari komunitas yang berbeda …

11 machine-learning reinforcement-learning research markov-decision-process

1

Bagaimana gradien kebijakan dapat diterapkan dalam kasus beberapa tindakan berkelanjutan?

Optimalisasi Kebijakan Wilayah Tepercaya (TRPO) dan Optimasi Kebijakan Proksimal (PPO) adalah dua algoritma gradien kebijakan canggih. Saat menggunakan tindakan kontinu tunggal, biasanya, Anda akan menggunakan beberapa distribusi probabilitas (misalnya, Gaussian) untuk fungsi kerugian. Versi kasarnya adalah: L ( θ ) = log( P( a1) ) A ,L.(θ)=catatan⁡(P(Sebuah1))SEBUAH,L(\theta) = \log(P(a_1)) A, …

11 deep-learning reinforcement-learning trpo

3

Apakah kebijakan optimal selalu stokastik jika lingkungannya juga stokastik?

Apakah kebijakan optimal selalu stokastik (yaitu, peta dari negara ke distribusi probabilitas atas tindakan) jika lingkungan juga stokastik? Secara intuitif, jika lingkungan bersifat deterministik (yaitu, jika agen dalam keadaan sss dan mengambil tindakan aaa , maka keadaan selanjutnya s′s′s' selalu sama, tidak peduli langkah waktu mana), maka kebijakan yang optimal …

10 reinforcement-learning stochastic-policy deterministic-policy policy environment

Pertanyaan yang diberi tag «reinforcement-learning»