Pertanyaan yang diberi tag «q-learning»

4
Mengapa Q-Learning menggunakan epsilon-serakah selama pengujian?
Dalam makalah DeepMind tentang video game Deep Q-Learning untuk Atari (di sini ), mereka menggunakan metode epsilon-serakah untuk eksplorasi selama pelatihan. Ini berarti bahwa ketika suatu tindakan dipilih dalam pelatihan, tindakan tersebut dapat dipilih sebagai tindakan dengan nilai q tertinggi, atau tindakan acak. Memilih antara keduanya adalah acak dan berdasarkan …



2
Bagaimana tepatnya menghitung Fungsi Kehilangan Q-Learning Jauh?
Saya ragu tentang bagaimana tepatnya fungsi kerugian dari Deep Q-Learning Network dilatih. Saya menggunakan jaringan feedforward 2 layer dengan lapisan output linear dan lapisan tersembunyi relu. Anggaplah saya memiliki 4 tindakan yang memungkinkan. Dengan demikian, output dari jaringan saya untuk keadaan saat ini adalah . Untuk membuatnya lebih konkret, mari …

1
Tinjauan Umum tentang Algoritma Pembelajaran Penguatan
Saat ini saya sedang mencari Tinjauan atas Algoritma Pembelajaran Penguatan dan mungkin klasifikasi mereka. Tetapi di sebelah Sarsa dan Q-Learning + Deep Q-Learning saya tidak dapat menemukan algoritma yang populer. Wikipedia memberi saya gambaran tentang Metode Pembelajaran Penguatan umum yang berbeda tetapi tidak ada referensi untuk algoritma yang berbeda yang …


4
Bagaimana cara menafsirkan kurva survival model bahaya Cox?
Bagaimana Anda menginterpretasikan kurva survival dari model hazard proporsional cox? Dalam contoh mainan ini, anggaplah kita memiliki model hazard proporsional cox pada agevariabel dalam kidneydata, dan menghasilkan kurva survival. library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() Misalnya, pada waktu , pernyataan mana yang benar? atau keduanya salah?200200200 Pernyataan …

1
Seberapa efisienkah Q-learning dengan Neural Networks ketika ada satu unit output per tindakan?
Latar belakang: Saya menggunakan pendekatan Q-value Neural Network dalam tugas pembelajaran penguatan saya. Pendekatannya persis sama dengan yang dijelaskan dalam pertanyaan ini , namun pertanyaannya sendiri berbeda. Dalam pendekatan ini jumlah output adalah jumlah tindakan yang bisa kita ambil. Dan dengan kata-kata sederhana, algoritmanya adalah sebagai berikut: lakukan tindakan A, …

3
Mengapa tidak ada probabilitas transisi dalam Q-Learning (reinforcement learning)?
Dalam pembelajaran penguatan, tujuan kami adalah untuk mengoptimalkan fungsi nilai-negara atau fungsi-nilai tindakan, yang didefinisikan sebagai berikut: Vπs=∑p(s′|s,π(s))[r(s′|s,π(s))+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s]Vsπ=∑p(s′|s,π(s))[r(s′|s,π(s))+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s]V^{\pi}_s = \sum p(s'|s,\pi(s))[r(s'|s,\pi(s))+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s] Qπ(s,a)=∑p(s′|s,s)[r(s′|s,a)+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s,a0=a]Qπ(s,a)=∑p(s′|s,s)[r(s′|s,a)+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s,a0=a]Q^{\pi}(s,a) = \sum p(s'|s,s)[r(s'|s,a)+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s,a_0=a] Namun, ketika kami menggunakan metode pembelajaran Q untuk mendapatkan strategi yang optimal, metode pembaruannya seperti berikut: Q(S,A)← Q(S,A)+α[R+γmaxa(Q(s′,a))−Q(S,A)]Q(S,A)← Q(S,A)+α[R+γmaxa(Q(s′,a))−Q(S,A)]Q(S,A) \leftarrow \ …
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.