Pertanyaan yang diberi tag «reinforcement-learning»

Seperangkat strategi dinamis dimana algoritma dapat mempelajari struktur lingkungan online dengan secara adaptif mengambil tindakan yang terkait dengan hadiah yang berbeda untuk memaksimalkan imbalan yang diperoleh.

2
Mengapa algoritma iterasi kebijakan menyatu dengan fungsi kebijakan dan nilai yang optimal?
Saya membaca catatan kuliah Andrew Ng tentang pembelajaran penguatan, dan saya mencoba memahami mengapa iterasi kebijakan digabungkan ke fungsi nilai optimal dan kebijakan optimal .V∗V∗V^*π∗π∗\pi^* Ingat iterasi kebijakan adalah: Inisialisasi π secara acakUlangi {L e t V : = Vπ \ untuk kebijakan saat ini, selesaikan bellman's eqn's dan atur …

1
Tinjauan Umum tentang Algoritma Pembelajaran Penguatan
Saat ini saya sedang mencari Tinjauan atas Algoritma Pembelajaran Penguatan dan mungkin klasifikasi mereka. Tetapi di sebelah Sarsa dan Q-Learning + Deep Q-Learning saya tidak dapat menemukan algoritma yang populer. Wikipedia memberi saya gambaran tentang Metode Pembelajaran Penguatan umum yang berbeda tetapi tidak ada referensi untuk algoritma yang berbeda yang …


4
Bagaimana cara menafsirkan kurva survival model bahaya Cox?
Bagaimana Anda menginterpretasikan kurva survival dari model hazard proporsional cox? Dalam contoh mainan ini, anggaplah kita memiliki model hazard proporsional cox pada agevariabel dalam kidneydata, dan menghasilkan kurva survival. library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() Misalnya, pada waktu , pernyataan mana yang benar? atau keduanya salah?200200200 Pernyataan …

1
Seberapa efisienkah Q-learning dengan Neural Networks ketika ada satu unit output per tindakan?
Latar belakang: Saya menggunakan pendekatan Q-value Neural Network dalam tugas pembelajaran penguatan saya. Pendekatannya persis sama dengan yang dijelaskan dalam pertanyaan ini , namun pertanyaannya sendiri berbeda. Dalam pendekatan ini jumlah output adalah jumlah tindakan yang bisa kita ambil. Dan dengan kata-kata sederhana, algoritmanya adalah sebagai berikut: lakukan tindakan A, …

3
Pembelajaran Penguatan pada Data Historis
Saya telah bekerja mempelajari kebijakan komunikasi optimal untuk pelanggan (pemberitahuan mana yang harus dikirim, berapa yang harus dikirim dan kapan harus dikirim). Saya memiliki data historis pemberitahuan sebelumnya yang dikirim (dengan cap waktu) dan kinerjanya. Sedang mencoba menerapkan RL untuk masalah ini untuk mempelajari kebijakan yang optimal. Namun, satu kendala …

5
Mengapa (dan kapan) seseorang harus mempelajari fungsi hadiah dari sampel dalam pembelajaran penguatan?
Dalam pembelajaran penguatan, kami memiliki fungsi hadiah yang menginformasikan agen seberapa baik tindakan dan negara saat ini dilakukan. Dalam beberapa pengaturan umum fungsi hadiah adalah fungsi dari tiga variabel: Keadaan saat iniSSS Tindakan saat ini pada kondisi saat iniπ(s)=aπ(s)=a\pi(s) = a Keadaan selanjutnyaS′S′S' Jadi terlihat seperti: R(S,a,S′)R(S,a,S′)R(S, a, S') Apa …


2
Batas Keyakinan Tertinggi dalam Pembelajaran Mesin
Saya menemukan formula untuk mendapatkan batas kepercayaan atas pada masalah bandit bersenjata k: cdalamNsayansaya-----√clnNinic\sqrt{\frac{\text{ln} N_i}{n_i}} di mana adalah jumlah sampel yang kami miliki untuk bandit khusus ini dan adalah jumlah total sampel yang kami miliki dari semua bandit. Algoritma yang sama digunakan dalam Pencarian Pohon Monte Carlo juga untuk mendapatkan …

2
Apakah kebijakan selalu deterministik dalam pembelajaran penguatan?
Dalam pembelajaran penguatan, apakah suatu kebijakan selalu deterministik, atau apakah itu suatu distribusi probabilitas atas tindakan (dari mana kami mengambil sampel)? Jika kebijakan bersifat deterministik, mengapa bukan fungsi nilai, yang didefinisikan pada kondisi tertentu untuk kebijakan tertentu sebagai berikutππ\pi Vπ( s ) = E[∑t > 0γtrt|s0= s , π]Vπ(s)=E[∑t>0γtrt|s0=s,π]V^{\pi}(s) = …

3
Mengapa tidak ada probabilitas transisi dalam Q-Learning (reinforcement learning)?
Dalam pembelajaran penguatan, tujuan kami adalah untuk mengoptimalkan fungsi nilai-negara atau fungsi-nilai tindakan, yang didefinisikan sebagai berikut: Vπs=∑p(s′|s,π(s))[r(s′|s,π(s))+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s]Vsπ=∑p(s′|s,π(s))[r(s′|s,π(s))+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s]V^{\pi}_s = \sum p(s'|s,\pi(s))[r(s'|s,\pi(s))+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s] Qπ(s,a)=∑p(s′|s,s)[r(s′|s,a)+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s,a0=a]Qπ(s,a)=∑p(s′|s,s)[r(s′|s,a)+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s,a0=a]Q^{\pi}(s,a) = \sum p(s'|s,s)[r(s'|s,a)+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s,a_0=a] Namun, ketika kami menggunakan metode pembelajaran Q untuk mendapatkan strategi yang optimal, metode pembaruannya seperti berikut: Q(S,A)← Q(S,A)+α[R+γmaxa(Q(s′,a))−Q(S,A)]Q(S,A)← Q(S,A)+α[R+γmaxa(Q(s′,a))−Q(S,A)]Q(S,A) \leftarrow \ …

3
Temukan distribusi dan ubah ke distribusi normal
Saya memiliki data yang menggambarkan seberapa sering suatu peristiwa berlangsung selama satu jam ("angka per jam", nph) dan berapa lama acara berlangsung ("durasi dalam detik per jam", dph). Ini adalah data asli: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.