Pertanyaan yang diberi tag «reinforcement-learning»

Seperangkat strategi dinamis dimana algoritma dapat mempelajari struktur lingkungan online dengan secara adaptif mengambil tindakan yang terkait dengan hadiah yang berbeda untuk memaksimalkan imbalan yang diperoleh.

2
Pertanyaan tentang Q-Learning menggunakan Neural Networks
Saya telah menerapkan Q-Learning seperti yang dijelaskan dalam, http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf Untuk sekitar. T (S, A) Saya menggunakan struktur jaringan saraf seperti berikut, Aktivasi sigmoid Input, jumlah input + 1 untuk neuron Aksi (Semua Input Ditskala 0-1) Keluaran, keluaran tunggal. Nilai-Q N jumlah M Lapisan Tersembunyi. Metode eksplorasi acak 0 <rand () …

4
Mengapa selalu ada setidaknya satu kebijakan yang lebih baik atau sama dengan semua kebijakan lainnya?
Pembelajaran Penguatan: Suatu Pengantar. Edisi kedua, dalam proses ., Richard S. Sutton dan Andrew G. Barto (c) 2012, hlm. 67-68. Memecahkan tugas pembelajaran penguatan berarti, secara kasar, menemukan kebijakan yang mencapai banyak penghargaan dalam jangka panjang. Untuk MDP terbatas, kita dapat dengan tepat menetapkan kebijakan optimal dengan cara berikut. Fungsi …

1
GAM vs LOESS vs splines
Konteks : Saya ingin menggambar garis di sebar yang tidak tampak parametrik, oleh karena itu saya gunakan geom_smooth()di ggplotdalam R. Secara otomatis mengembalikan geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the …


1
Mengapa penguatan yang dalam belajar tidak stabil?
Dalam makalah DeepMind tahun 2015 tentang pembelajaran penguatan dalam, ia menyatakan bahwa "Upaya sebelumnya untuk menggabungkan RL dengan jaringan saraf sebagian besar gagal karena pembelajaran yang tidak stabil". Makalah ini kemudian mencantumkan beberapa penyebabnya, berdasarkan korelasi antar pengamatan. Tolong bisakah seseorang menjelaskan apa artinya ini? Apakah itu bentuk overfitting, di …

1
Algoritma optimal untuk menyelesaikan masalah bandit n-bersenjata?
Saya telah membaca tentang sejumlah algoritma untuk memecahkan masalah bandit n-bersenjata seperti -greedy, softmax, dan UCB1, tapi saya mengalami beberapa masalah memilah pendekatan apa yang terbaik untuk meminimalkan penyesalan.ϵϵ\epsilon Apakah ada algoritma optimal yang diketahui untuk memecahkan masalah bandit n-bersenjata? Apakah ada pilihan algoritma yang tampaknya berkinerja terbaik dalam praktik?

2
Mengapa replay pengalaman membutuhkan algoritma off-policy?
Dalam makalah yang memperkenalkan DQN " Bermain Atari dengan Deep Reinforcement Learning ", disebutkan: Perhatikan bahwa ketika belajar dengan replay pengalaman, perlu untuk belajar di luar kebijakan (karena parameter kami saat ini berbeda dengan yang digunakan untuk menghasilkan sampel), yang memotivasi pilihan Q-learning. Saya tidak begitu mengerti apa artinya itu. …


1
Bagaimana menyesuaikan bobot ke dalam nilai-Q dengan pendekatan fungsi linear
Dalam pembelajaran penguatan, pendekatan fungsi linear sering digunakan ketika ruang keadaan besar hadir. (Ketika mencari tabel menjadi tidak layak.) Bentuk nilai dengan pendekatan fungsi linear diberikan olehQ−Q-Q- Q(s,a)=w1f1(s,a)+w2f2(s,a)+⋯,Q(s,Sebuah)=w1f1(s,Sebuah)+w2f2(s,Sebuah)+⋯,Q(s,a) = w_1 f_1(s,a) + w_2 f_2(s,a) + \cdots, di mana adalah bobot, dan adalah fitur.wiwsayaw_ififsayaf_i Fitur-fiturnya sudah ditentukan oleh pengguna. Pertanyaan saya …

2
Kapan metode Monte Carlo lebih disukai daripada yang perbedaan temporal?
Saya telah melakukan banyak penelitian tentang Penguatan Pembelajaran akhir-akhir ini. Saya mengikuti Pembelajaran Penguatan Sutton & Barto : Pengantar untuk sebagian besar dari ini. Saya tahu apa itu Proses Keputusan Markov dan bagaimana pembelajaran Dynamic Programming (DP), Monte Carlo dan Temporal Difference (DP) dapat digunakan untuk menyelesaikannya. The Masalah Saya …


1
Q-learning dengan Neural Network sebagai perkiraan fungsi
Saya mencoba menggunakan Neural Network untuk memperkirakan nilai-Q di Q-learning seperti pada Pertanyaan tentang Q-Learning menggunakan Neural Networks . Seperti yang disarankan dalam jawaban pertama, saya menggunakan fungsi aktivasi linier untuk lapisan output, sementara saya masih menggunakan fungsi aktivasi sigmoid di lapisan tersembunyi (2, meskipun saya bisa mengubahnya nanti). Saya …


2
Bagaimana tepatnya menghitung Fungsi Kehilangan Q-Learning Jauh?
Saya ragu tentang bagaimana tepatnya fungsi kerugian dari Deep Q-Learning Network dilatih. Saya menggunakan jaringan feedforward 2 layer dengan lapisan output linear dan lapisan tersembunyi relu. Anggaplah saya memiliki 4 tindakan yang memungkinkan. Dengan demikian, output dari jaringan saya untuk keadaan saat ini adalah . Untuk membuatnya lebih konkret, mari …

1
Bisakah model P (Y | X) dilatih melalui stochastic gradient descent dari sampel non-iid P (X) dan sampel iid dari P (Y | X)?
Ketika melatih model parameter (misalnya untuk memaksimalkan kemungkinan) melalui penurunan gradien stokastik pada beberapa set data, umumnya diasumsikan bahwa sampel pelatihan diambil di awal dari distribusi data pelatihan. Jadi, jika tujuannya adalah untuk memodelkan distribusi bersama , maka setiap sampel pelatihan harus diambil iid dari distribusi itu.P(X,Y)P(X,Y)P(X,Y)(xi,yi)(xi,yi)(x_i,y_i) Jika tujuannya adalah …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.