Mengapa selalu ada setidaknya satu kebijakan yang lebih baik atau sama dengan semua kebijakan lainnya?

14

Memecahkan tugas pembelajaran penguatan berarti, secara kasar, menemukan kebijakan yang mencapai banyak penghargaan dalam jangka panjang. Untuk MDP terbatas, kita dapat dengan tepat menetapkan kebijakan optimal dengan cara berikut. Fungsi nilai menentukan pemesanan sebagian atas kebijakan. Sebuah kebijakan $\pi$ didefinisikan untuk menjadi lebih baik dari atau sama dengan kebijakan $\pi'$ jika pengembalian yang diharapkan lebih besar dari atau sama dengan yang $\pi'$ , untuk semua negara. Dengan kata lain, $\pi \geq \pi'$ jika dan hanya jika $v_\pi(s) \geq v_{\pi'}(s)$ , untuk semua $s \in \mathcal{S}$ . Selalu ada setidaknya satu kebijakan yang lebih baik atau sama dengan semua kebijakan lainnya. Ini adalah kebijakan yang optimal.

markov-process reinforcement-learning

— sh1ng
sumber

Bukti yang sangat rinci (yang menggunakan teorema titik tetap Banach) muncul di bab 6.2 dari "Proses Keputusan Markov" oleh Puterman.

— Toghs

3

Hanya melewati bagian yang dikutip, paragraf yang sama sebenarnya memberi tahu Anda apa kebijakan ini: itu adalah yang mengambil tindakan terbaik di setiap negara. Dalam MDP, tindakan yang kami lakukan di satu negara tidak memengaruhi hadiah untuk tindakan yang dilakukan di negara lain, jadi kami hanya dapat memaksimalkan kebijakan negara bagian demi negara.

— Don Reba
sumber

Bukankah jawaban ini sepenuhnya salah? Bagaimana Anda bisa mengatakan bahwa mengoptimalkan kebijakan negara demi negara mengarah ke kebijakan optimal. Jika saya mengoptimalkan lebih dari keadaan

dan saya butuh

dan kemudian mengoptimalkan di

mengarah ke fungsi nilai optimal

tetapi ada kebijakan lain di mana

mengarah secara optimal ke

dan optimal fungsi nilai

lebih tinggi dari

. Bagaimana Anda bisa mengesampingkan ini dengan analisis sepintas seperti itu?

S_{t}

$S_t$

S_{t + 1}

$S_{t+1}$

S_{t + 1}

$S_{t+1}$

V_{t + 1}

$V_{t+1}$

S_{t}

$S_t$

S_{l}

$S_l$

S_{l}

$S_l$

V_{t + 1}

$V_{t+1}$

— MiloMinderbinder

@MiloMinderbinder Jika kebijakan optimal pada

adalah memilih

, maka nilai

lebih tinggi dari nilai

.

S_{t}

$S_t$

S_{t + 1}

$S_{t+1}$

S_{t + 1}

$S_{t+1}$

S_{l}

$S_l$

— Don Reba

Salahku. Typo dikoreksi: 'Apakah jawaban ini tidak sepenuhnya salah? Bagaimana Anda bisa mengatakan bahwa mengoptimalkan kebijakan negara demi negara mengarah ke kebijakan optimal? Jika saya mengoptimalkan lebih dari keadaan

dan itu membawa saya ke

dan kemudian mengoptimalkan di

mengarah ke fungsi nilai yang optimal

dari

tetapi ada kebijakan lain di mana

meskipun mengarah suboptimally ke

dan karenanya fungsi nilai dari

S_{t}

$S_t$

S_{t + 1}

$S_{t+1}$

S_{t + 1}

$S_{t+1}$

V_{t + 2}

$V_{t+2}$

S_{t + 2}

$S_{t+2}$

S_{t}

$S_t$

S_{l + 1}

$S_{l+1}$

S_{t + 1}

$S_{t+1}$ lebih tinggi dari

V_{l + 1}

$V_{l+1}$ tapi fungsi nilai

lebih tinggi berdasarkan kebijakan ini daripada di bawah kebijakan yang ditemukan dengan mengoptimalkan negara oleh negara. Bagaimana ini dikalahkan oleh Anda? '

S_{t + 2}

$S_{t+2}$

— MiloMinderbinder

Saya pikir definisi

akan mencegah hal ini terjadi sejak awal, karena harus memperhitungkan pengembalian di masa depan juga.

V

$V$

— Flying_Banana

Pertanyaannya kemudian adalah: mengapa

ada? Anda tidak dapat menyiasati Teorema Titik Tetap Banach :-)

q_{*}

$q_*$

— Fabian Werner

10

Keberadaan kebijakan yang optimal tidak jelas. Untuk mengetahui alasannya, perhatikan bahwa fungsi nilai hanya menyediakan pemesanan parsial atas ruang kebijakan. Ini berarti:

π^{'} \geq π ⟺ v_{π^{'}} (s) \geq v_{π} (s), \forall s \in S

$\pi' \geq \pi \iff v_{\pi'}(s) \geq v_{\pi}(s), \forall s \in S$

Karena ini hanya pemesanan parsial, mungkin ada kasus di mana dua kebijakan, dan , tidak dapat dibandingkan. Dengan kata lain, ada himpunan bagian dari ruang keadaan, dan sedemikian rupa sehingga: $\pi_1$ $\pi_2$ $S_1$ $S_2$

v_{π^{'}} (s) \geq v_{π} (s), \forall s \in S_{1}

$v_{\pi'}(s) \geq v_{\pi}(s), \forall s \in S_1$

v_{π} (s) \geq v_{π^{'}} (s), \forall s \in S_{2}

$v_{\pi}(s) \geq v_{\pi'}(s),\forall s \in S_2$

Dalam hal ini, kami tidak dapat mengatakan bahwa satu kebijakan lebih baik daripada yang lain. Tetapi jika kita berurusan dengan MDP terbatas dengan fungsi nilai terikat, maka skenario seperti itu tidak pernah terjadi. Hanya ada satu fungsi nilai optimal, meskipun mungkin ada beberapa kebijakan optimal.

Untuk bukti ini, Anda perlu memahami teorema Titik Tetap Banach. Untuk analisis terperinci, silakan merujuk .

— Karthik Thiagarajan
sumber

7

$\newcommand{\mc}{\mathcal} \newcommand{\mb}{\mathbb}$

Pengaturan

Kami sedang mempertimbangkan dalam pengaturan:

Tindakan terpisah
Status diskrit
Hadiah terbatas
Kebijakan stasioner
Cakrawala tak terbatas

The kebijakan yang optimal didefinisikan sebagai: dan fungsi nilai optimal adalah: Ada dapat satu set kebijakan yang mencapai maksimum. Tetapi hanya ada satu fungsi nilai optimal:

\begin{matrix} (1) & π^{*} \in \arg max_{π} V^{π} (s), \forall s \in S \end{matrix}

$\pi^\ast \in \arg \max_\pi V^\pi(s), \forall s \in \mc{S} \tag{1}$

\begin{matrix} (2) & V^{*} = max_{π} V^{π} (s), \forall s \in S \end{matrix}

$V^\ast = \max_\pi V^\pi (s), \forall s \in \mc S \tag{2}$

\begin{matrix} (3) & V^{*} = V^{π^{*}} \end{matrix}

$V^\ast = V^{\pi^\ast} \tag{3}$

Pertanyaan

How to prove that there exists at least one $\pi^\ast$ which satisfies (1) simultaneously for all $s \in \mc{S}$ ?

Outline of proof

Construct the optimal equation to be used as a temporary surrogate definition of optimal value function, which we will prove in step 2 that it is equivalent to the definition via Eq.(2).
$\begin{matrix} (4) & V^{*} (s) = max_{a \in A} [R (s, a) + γ \sum_{s^{'} \in S} T (s, a, s^{'}) V^{*} (s^{'})] \end{matrix}$ $V^\ast(s) = \max_{a \in \mc A} [ R(s, a) + \gamma \, \sum_{s^\prime \in \mc S} T(s, a, s^\prime) V^\ast(s^\prime)] \tag{4}$
Turunkan persamaan dari fungsi nilai optimal mendefinisikan melalui Persamaan (4) dan melalui Persamaan (2).

(Catat sebenarnya kita hanya perlu arah keperluan dalam buktinya, karena kecukupan sudah jelas karena kita membangun Persamaan. (4) dari Persamaan. (2).)
Buktikan bahwa ada solusi unik untuk Persamaan. (4).
Pada langkah 2, kita tahu bahwa solusi yang diperoleh pada langkah 3 juga merupakan solusi untuk Persamaan. (2), jadi ini adalah fungsi nilai yang optimal.
Dari fungsi nilai optimal, kita dapat memulihkan kebijakan optimal dengan memilih tindakan maximizer dalam Persamaan (4) untuk setiap negara.

Detail langkah-langkahnya

1

$V^\ast(s) = V^{\pi^\ast}(s) = \mb E_a [Q^{\pi^\ast}(s, a)]$ $V^{\pi^\ast}(s) \le \max_{a \in \mc A} Q^{\pi^\ast} (s, a)$ $\tilde{s}$ such that $V^{\pi^\ast} \neq \max_{a \in \mc A} Q^{\pi^\ast} (s, a)$ , we can choose a better policy by maximizing $Q^{\ast} (s, a) = Q^{\pi^\ast} (s, a)$ over $a$ .

2

(=>)

Follows by step 1.

(<=)

i.e. If $\tilde V$ satisfies $\tilde V(s) = \max_{a \in \mc A} [ R(s, a) + \gamma \, \sum_{s^\prime \in \mc S} T(s, a, s^\prime) \tilde V(s^\prime)]$ , then $\tilde V(s) = V^\ast(s) = \max_\pi V^\pi(s), \forall s \in \mc S$ .

Define the optimal Bellman operator as

\begin{matrix} (5) & T V (s) = max_{a \in A} [R (s, a) + γ \sum_{s^{'} \in S} T (s, a, s^{'}) V (s^{'})] \end{matrix}

$\mc T V(s) = \max_{a \in \mc A} [ R(s, a) + \gamma \, \sum_{s^\prime \in \mc S} T(s, a, s^\prime) V(s^\prime)] \tag{5}$ So our goal is to prove that if

\tilde{V} = T \tilde{V}

$\tilde V = \mc T \tilde V$ , then

\tilde{V} = V^{*}

$\tilde V = V^\ast$ . We show this by combining two results, following Puterman[1]:

a) If $\tilde V \ge \mc T \tilde V$ , then $\tilde V \ge V^\ast$ .

b) If $\tilde V \le \mc T \tilde V$ , then $\tilde V \le V^\ast$ .

Proof:

a)

For any $\pi = (d_1, d_2, ...)$ ,

\begin{aligned} \tilde{V} & \geq T \tilde{V} = max_{d} [R_{d} + γ P_{d} \tilde{V}] \\ \geq R_{d_{1}} + γ P_{d_{1}} \tilde{V} \end{aligned}

$\begin{align} \tilde V &\ge \mc T \tilde V = \max_{d} [ R_d + \gamma \, P_d \tilde V] \\ &\ge R_{d_1} + \gamma \, P_{d_1} \tilde V \\ \end{align}$ Here

d

$d$ is the decision rule(action profile at specific time),

R_{d}

$R_d$ is the vector representation of immediate reward induced from

d

$d$ and

P_{d}

$P_d$ is transition matrix induced from

d

$d$ .

By induction, for any $n$ ,

\tilde{V} \geq R_{d_{1}} + \sum_{i = 1}^{n - 1} γ^{i} P_{π}^{i} R_{d_{i + 1}} + γ^{n} P_{π}^{n} \tilde{V}

$\tilde V \ge R_{d_1} + \sum_{i=1}^{n-1} \gamma^i P_\pi^i R_{d_{i+1}} + \gamma^n P_\pi^n \tilde V$ where

P_{π}^{j}

$P_\pi^j$ represents the

j

$j$ -step transition matrix under

π

$\pi$ .

Since

V^{π} = R_{d_{1}} + \sum_{i = 1}^{\infty} γ^{i} P_{π}^{i} R_{d_{i + 1}}

$V^\pi = R_{d_1} + \sum_{i=1}^{\infty}\gamma^i P_\pi^i R_{d_{i+1}}$ we have

\tilde{V} - V^{π} \geq \underset{\to 0 as n \to \infty}{\underset{⏟}{γ^{n} P_{π}^{n} \tilde{V} - \sum_{i = n}^{\infty} γ^{i} P_{π}^{i} R_{d_{i + 1}}}}

$\tilde V - V^\pi \ge \underbrace{\gamma^n P_\pi^n \tilde V -\sum_{i=n}^{\infty}\gamma^i P_\pi^i R_{d_{i+1}}}_{\rightarrow 0 \ \text{as}\ n\rightarrow \infty}$ So we have

\tilde{V} \geq V^{π}

$\tilde V \ge V^\pi$ . And since this holds for any

π

$\pi$ , we conclude that

\tilde{V} \geq max_{π} V^{π} = V^{*}

$\tilde V \ge \max_\pi V^\pi = V^\ast$ b)

Follows from step 1.

3

The optimal Bellman operator is a contraction in $L_\infty$ norm, cf. [2].

Proof: For any $s$ ,

\begin{aligned} | T V_{1} (s) - T V_{2} (s) | & = | max_{a \in A} [R (s, a) + γ \sum_{s^{'} \in S} T (s, a, s^{'}) V_{1} (s^{'})] - max_{a^{'} \in A} [R (s, a^{'}) + γ \sum_{s^{'} \in S} T (s, a^{'}, s^{'}) V (s^{'})] | \\ \overset{(*)}{\leq} | max_{a \in A} [γ \sum_{s^{'} \in S} T (s, a, s^{'}) (V_{1} (s^{'}) - V_{2} (s^{'}))] | \\ \leq γ ‖ V_{1} - V_{2} ‖_{\infty} \end{aligned}

$\begin{align} \left\vert \mc T V_1(s) - \mc TV_2(s) \right\vert &= \left\vert \max_{a \in \mc A} [ R(s, a) + \gamma \, \sum_{s^\prime \in \mc S} T(s, a, s^\prime) V_1(s^\prime)] -\max_{a^\prime \in \mc A} [ R(s, a^\prime) + \gamma \, \sum_{s^\prime \in \mc S} T(s, a^\prime, s^\prime) V(s^\prime)]\right\vert \\ &\overset{(*)}{\le} \left\vert \max_{a \in \mc A} [\gamma \, \sum_{s^\prime \in \mc S} T(s, a, s^\prime) (V_1(s^\prime) - V_2(s^\prime))] \right\vert \\ &\le \gamma \Vert V_1 - V_2 \Vert_\infty \end{align}$ where in (*) we used the fact that

max_{a} f (a) - max_{a^{'}} g (a^{'}) \leq max_{a} [f (a) - g (a)]

$\max_a f(a) - \max_{a^\prime} g(a^\prime) \le \max_a [f(a) - g(a)]$

Thus by Banach fixed point theorum it follows that $\mc T$ has a unique fixed point.

References

[1] Puterman, Martin L.. “Markov Decision Processes : Discrete Stochastic Dynamic Programming.” (2016).

[2] A. Lazaric. http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf

— LoveIris
sumber

-1

The policy $a=\pi(s)$ gives the best action $a$ to execute in state $s$ according to policy $\pi$ , i.e. the value function $v_\pi(s)=\max_{a \in A} q_\pi (s,a)$ is highest for action $a$ in state $s$ .

There is always at least one policy that is better than or equal to all other policies.

Thus there is always a policy $\pi_*$ which gives equal or higher expected rewards than policy $\pi$ . Note that this implies that $\pi$ could be an/the optimal policy ( $\pi_*$ ) itself.

— agold
sumber

3

How does this answer the question? You're basically repeating statements written in the quote.

— nbro