Apakah kebijakan selalu deterministik dalam pembelajaran penguatan?

Dalam pembelajaran penguatan, apakah suatu kebijakan selalu deterministik, atau apakah itu suatu distribusi probabilitas atas tindakan (dari mana kami mengambil sampel)? Jika kebijakan bersifat deterministik, mengapa bukan fungsi nilai, yang didefinisikan pada kondisi tertentu untuk kebijakan tertentu sebagai berikut $\pi$

V^{π} (s) = E [\sum_{t > 0} γ^{t} r_{t} | s_{0} = s, π]

$V^{\pi}(s) = E\left[\sum_{t>0} \gamma^{t}r_t|s_0 = s, \pi\right]$

sebuah output point?

Dalam definisi di atas, kami mengambil harapan. Apa harapan ini berakhir?

Bisakah kebijakan mengarah ke rute yang berbeda?

reinforcement-learning deterministic-policy stochastic-policy

— MiloMinderbinder
sumber

Pertanyaan terkait tentang StackOverflow: stackoverflow.com/q/46260775/712995

— Maxim

Ada beberapa pertanyaan di sini: 1. Apakah kebijakan selalu deterministik? 2. Jika kebijakan bersifat deterministik maka bukankah nilainya juga harus deterministik? 3. Apa ekspektasi dalam estimasi fungsi nilai? Pertanyaan terakhir Anda tidak terlalu jelas, "Bisakah kebijakan mengarah ke rute yang memiliki nilai saat ini berbeda?" tapi saya pikir maksud Anda: 4. Bisakah kebijakan mengarah ke rute yang berbeda?

Suatu kebijakan adalah suatu fungsi dapat bersifat deterministik atau stokastik. Ini menentukan tindakan apa yang harus diambil mengingat negara tertentu. Distribusi digunakan untuk kebijakan stokastik dan fungsi pemetaan digunakan untuk kebijakan deterministik, di mana adalah himpunan status yang mungkin dan adalah himpunan tindakan yang mungkin . $\pi(a\mid s)$ $\pi:S \rightarrow A$ $S$ $A$
Fungsi nilai tidak deterministik. Nilai (dari suatu negara) adalah hadiah yang diharapkan jika Anda memulai dari kondisi itu dan terus mengikuti kebijakan. Sekalipun kebijakan itu bersifat deterministik, fungsi imbalan dan lingkungan mungkin tidak.
Harapan dalam formula itu adalah atas semua rute yang mungkin dimulai dari negara bagian . Biasanya, rute atau jalur didekomposisi menjadi beberapa langkah, yang digunakan untuk melatih penaksir nilai. Langkah-langkah ini dapat diwakili oleh tuple (status, aksi, hadiah, status berikutnya) $s$ $(s,a,r,s')$
Ini terkait dengan jawaban 2, kebijakan tersebut dapat mengarah pada jalur yang berbeda (bahkan kebijakan deterministik) karena lingkungan biasanya tidak deterministik.

— IKLAN
sumber

dapatkah Anda memberi saya contoh lingkungan yang tidak deterministik? seperti yang saya lihat itu, jika agen berlaku tindakan ke lingkungan dalam keadaan , itu deterministik perubahan lingkungan untuk

a

$a$

s

$s$

s^{‘}

$s^`$

— MiloMinderbinder

Contoh klasik adalah robot yang mengambil gerakan kiri dengan satu langkah (aksi) tetapi permukaannya licin (berjalan di atas es) sehingga sebenarnya bergerak 2 langkah ke kiri. Sebenarnya lingkungan seperti itu adalah norma dan dipelajari secara luas. Contoh saya sebenarnya adalah lingkungan "mainan" yang terkenal: gym.openai.com/envs/FrozenLake-v0

— AD

sehingga negara dan tindakan atasnya mengarah ke dist prob lebih . saya benar?

s

$s$

a

$a$

s^{‘}

$s^`$

— MiloMinderbinder

Ya, sama seperti stochastic, juga stochastic.

p (a ∣ s)

$p(a\mid s)$

p (s^{'} ∣ s, a)

$p(s' \mid s, a)$

— AD

hanya dua hal lagi: 1. adalah stokastik hanya dalam kebijakan stokastik kan? 2. Bisakah Anda mengonfirmasi jawaban lain yang diposting salah tentang apa yang diambil alih sehingga saya dapat menerima jawaban Anda?

p (a | s)

$p(a|s)$

— MiloMinderbinder

Kebijakan dapat bersifat stokastik atau deterministik. Harapannya lebih dari contoh pelatihan mengingat kondisi. Fungsi nilai adalah perkiraan pengembalian, itulah sebabnya ini merupakan harapan.

— Neil G
sumber