Statistik dan Big Data q-learning

4

Mengapa Q-Learning menggunakan epsilon-serakah selama pengujian?

Dalam makalah DeepMind tentang video game Deep Q-Learning untuk Atari (di sini ), mereka menggunakan metode epsilon-serakah untuk eksplorasi selama pelatihan. Ini berarti bahwa ketika suatu tindakan dipilih dalam pelatihan, tindakan tersebut dapat dipilih sebagai tindakan dengan nilai q tertinggi, atau tindakan acak. Memilih antara keduanya adalah acak dan berdasarkan …

18 machine-learning reinforcement-learning q-learning deep-rl

2

Mengapa huruf Q dipilih dalam Q-learning?

Mengapa huruf Q dipilih atas nama Q-learning? Sebagian besar huruf dipilih sebagai singkatan, seperti singkatan kebijakan dan singkatan nilai. Tapi saya tidak berpikir Q adalah singkatan dari kata apa pun.vππ\pivvv

17 terminology reinforcement-learning history q-learning

1

Apa perbedaan antara episode dan zaman dalam pembelajaran Q mendalam?

Saya mencoba memahami makalah terkenal "Bermain Atari dengan Pembelajaran Penguatan Jauh" ( pdf ). Saya tidak jelas tentang perbedaan antara zaman dan episode . Dalam algoritma , loop luar lebih dari episode , sedangkan pada gambar sumbu x diberi label zaman . Dalam konteks pembelajaran penguatan, saya tidak jelas apa …

14 neural-networks terminology reinforcement-learning q-learning

2

Bagaimana tepatnya menghitung Fungsi Kehilangan Q-Learning Jauh?

Saya ragu tentang bagaimana tepatnya fungsi kerugian dari Deep Q-Learning Network dilatih. Saya menggunakan jaringan feedforward 2 layer dengan lapisan output linear dan lapisan tersembunyi relu. Anggaplah saya memiliki 4 tindakan yang memungkinkan. Dengan demikian, output dari jaringan saya untuk keadaan saat ini adalah . Untuk membuatnya lebih konkret, mari …

11 least-squares deep-learning loss-functions reinforcement-learning q-learning

1

Tinjauan Umum tentang Algoritma Pembelajaran Penguatan

Saat ini saya sedang mencari Tinjauan atas Algoritma Pembelajaran Penguatan dan mungkin klasifikasi mereka. Tetapi di sebelah Sarsa dan Q-Learning + Deep Q-Learning saya tidak dapat menemukan algoritma yang populer. Wikipedia memberi saya gambaran tentang Metode Pembelajaran Penguatan umum yang berbeda tetapi tidak ada referensi untuk algoritma yang berbeda yang …

9 reinforcement-learning q-learning

2

Pembelajaran penguatan di lingkungan yang tidak stasioner [ditutup]

Ditutup . Pertanyaan ini perlu lebih fokus . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga berfokus pada satu masalah hanya dengan mengedit posting ini . Ditutup 7 hari yang lalu . T1: Apakah ada metode yang umum atau diterima untuk berurusan dengan lingkungan yang tidak …

9 markov-process reinforcement-learning stationarity q-learning

4

Bagaimana cara menafsirkan kurva survival model bahaya Cox?

Bagaimana Anda menginterpretasikan kurva survival dari model hazard proporsional cox? Dalam contoh mainan ini, anggaplah kita memiliki model hazard proporsional cox pada agevariabel dalam kidneydata, dan menghasilkan kurva survival. library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() Misalnya, pada waktu , pernyataan mana yang benar? atau keduanya salah?200200200 Pernyataan …

9 r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

1

Seberapa efisienkah Q-learning dengan Neural Networks ketika ada satu unit output per tindakan?

Latar belakang: Saya menggunakan pendekatan Q-value Neural Network dalam tugas pembelajaran penguatan saya. Pendekatannya persis sama dengan yang dijelaskan dalam pertanyaan ini , namun pertanyaannya sendiri berbeda. Dalam pendekatan ini jumlah output adalah jumlah tindakan yang bisa kita ambil. Dan dengan kata-kata sederhana, algoritmanya adalah sebagai berikut: lakukan tindakan A, …

9 machine-learning neural-networks reinforcement-learning q-learning

3

Mengapa tidak ada probabilitas transisi dalam Q-Learning (reinforcement learning)?

Dalam pembelajaran penguatan, tujuan kami adalah untuk mengoptimalkan fungsi nilai-negara atau fungsi-nilai tindakan, yang didefinisikan sebagai berikut: Vπs=∑p(s′|s,π(s))[r(s′|s,π(s))+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s]Vsπ=∑p(s′|s,π(s))[r(s′|s,π(s))+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s]V^{\pi}_s = \sum p(s'|s,\pi(s))[r(s'|s,\pi(s))+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s] Qπ(s,a)=∑p(s′|s,s)[r(s′|s,a)+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s,a0=a]Qπ(s,a)=∑p(s′|s,s)[r(s′|s,a)+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s,a0=a]Q^{\pi}(s,a) = \sum p(s'|s,s)[r(s'|s,a)+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s,a_0=a] Namun, ketika kami menggunakan metode pembelajaran Q untuk mendapatkan strategi yang optimal, metode pembaruannya seperti berikut: Q(S,A)← Q(S,A)+α[R+γmaxa(Q(s′,a))−Q(S,A)]Q(S,A)← Q(S,A)+α[R+γmaxa(Q(s′,a))−Q(S,A)]Q(S,A) \leftarrow \ …

8 reinforcement-learning q-learning

Pertanyaan yang diberi tag «q-learning»