Apa fungsi Q dan apa fungsi V dalam pembelajaran penguatan?

30

Sepertinya saya bahwa fungsi dapat dengan mudah diekspresikan oleh fungsi dan dengan demikian fungsi tampaknya berlebihan bagi saya. Namun, saya baru belajar penguatan, jadi saya kira ada yang salah. $V$ $Q$ $V$

Definisi

Pembelajaran Q dan V berada dalam konteks Proses Keputusan Markov . Sebuah MDP adalah 5-tuple dengan $(S, A, P, R, \gamma)$

$S$ adalah seperangkat status (biasanya terbatas)
$A$ adalah serangkaian tindakan (biasanya terbatas)
$P(s, s', a) = P(s_{t+1} = s' | s_t = s, a_t = a)$ adalah probabilitas untuk dari keadaan ke keadaan dengan tindakan . $s$ $s'$ $a$
$R(s, s', a) \in \mathbb{R}$ adalah hadiah langsung setelah beralih dari keadaan ke keadaan dengan tindakan . (Sepertinya saya yang biasanya hanya hal-hal). $s$ $s'$ $a$ $s'$
$\gamma \in [0, 1]$ disebut faktor diskon dan menentukan apakah seseorang berfokus pada hadiah langsung ( ), total hadiah ( ) atau trade-off. $\gamma = 0$ $\gamma = 1$

Sebuah kebijakan $\pi$ , menurut Penguatan Belajar: Sebuah Pengantar oleh Sutton dan Barto adalah fungsi (ini bisa menjadi probabilistik). $\pi: S \rightarrow A$

Menurut slide Mario Martins , fungsi adalah dan fungsi Q adalah $V$

V^{π} (s) = E_{π} {R_{t} | s_{t} = s} = E_{π} {\sum_{k = 0}^{\infty} γ^{k} r_{t + k + 1} | s_{t} = s}

$V^\pi(s) = E_\pi \{R_t | s_t = s\} = E_\pi \{\sum_{k=0}^\infty \gamma^k r_{t+k+1} | s_t = s\}$

Q^{π} (s, a) = E_{π} {R_{t} | s_{t} = s, a_{t} = a} = E_{π} {\sum_{k = 0}^{\infty} γ^{k} r_{t + k + 1} | s_{t} = s, a_{t} = a}

$Q^\pi(s, a) = E_\pi \{R_t | s_t = s, a_t = a\} = E_\pi \{\sum_{k=0}^\infty \gamma^k r_{t+k+1} | s_t = s, a_t=a\}$

Pikiran saya

Fungsi menyatakan apa nilai keseluruhan yang diharapkan (bukan imbalan!) Dari negara bagian bawah kebijakan . $V$ $s$ $\pi$

The -negara fungsi apa nilai dari negara dan tindakan di bawah kebijakan adalah. $Q$ $s$ $a$ $\pi$

Ini berarti,

Q^{π} (s, π (s)) = V^{π} (s)

$Q^\pi(s, \pi(s)) = V^\pi(s)$

Kanan? Jadi mengapa kita memiliki fungsi nilai sama sekali? (Saya kira saya mencampur sesuatu)

machine-learning reinforcement-learning

— Martin Thoma
sumber

15

Nilai-Q adalah cara yang bagus untuk membuat tindakan eksplisit sehingga Anda dapat menangani masalah di mana fungsi transisi tidak tersedia (bebas model). Namun, ketika ruang tindakan Anda besar, hal-hal tidak begitu baik dan nilai-Q tidak begitu nyaman. Pikirkan sejumlah besar tindakan atau bahkan ruang tindakan berkelanjutan.

Dari perspektif pengambilan sampel, dimensi lebih tinggi dari sehingga mungkin semakin sulit untuk mendapatkan cukup sampel dibandingkan dengan . Jika Anda memiliki akses ke fungsi transisi, kadang-kadang baik. $Q(s, a)$ $V(s)$ $(s, a)$ $(s)$ $V$

Ada juga kegunaan lain di mana keduanya digabungkan. Misalnya, fungsi keunggulan di mana . Jika Anda tertarik, Anda dapat menemukan contoh terbaru menggunakan fungsi keunggulan di sini: $A(s, a) = Q(s, a) - V(s)$

Arsitektur Jaringan Duel untuk Pembelajaran Penguatan Dalam

oleh Ziyu Wang, Tom Schaul, Matteo Hessel, Hado van Hasselt, Marc Lanctot dan Nando de Freitas.

— Juan Leni
sumber

19

$V^\pi(s)$ adalah fungsi nilai-negara MDP (Markov Decision Process). Ini hasil yang diharapkan mulai dari negara mengikuti kebijakan . $s$ $\pi$

Dalam ekspresi

V^{π} (s) = E_{π} {G_{t} | s_{t} = s}

$V^\pi(s) = E_\pi \{G_t | s_t = s\}$

$G_t$ adalah total hadiah DISCOUNT dari langkah waktu , sebagai lawan dari yang merupakan pengembalian langsung. Di sini Anda mengambil ekspektasi dari SEMUA tindakan sesuai dengan kebijakan . $t$ $R_t$ $\pi$

$Q^\pi(s, a)$ adalah fungsi nilai tindakan. Ini adalah pengembalian yang diharapkan mulai dari negara , mengikuti kebijakan , mengambil tindakan . Ini berfokus pada tindakan tertentu di negara tertentu. $s$ $\pi$ $a$

Q^{π} (s, a) = E_{π} {G_{t} | s_{t} = s, a_{t} = a}

$Q^\pi(s, a) = E_\pi \{G_t | s_t = s, a_t = a\}$

Hubungan antara dan (nilai berada di negara itu) adalah $Q^\pi$ $V^\pi$

V^{π} (s) = \sum_{a \in A} π (a | s) * Q^{π} (a, s)

$V^\pi(s) = \sum_{a ∈ A} \pi (a|s) * Q^\pi(a,s)$

Anda menjumlahkan setiap nilai tindakan dikalikan dengan probabilitas untuk mengambil tindakan itu (kebijakan ). $\pi(a|s)$

Jika Anda memikirkan contoh dunia kisi, Anda mengalikan probabilitas (atas / bawah / kanan / kiri) dengan nilai status satu langkah di depan (atas / bawah / kanan / kiri).

— Harun
sumber

5

Ini adalah jawaban yang paling ringkas.

— Brett

Saya memiliki sumber yang menyatakan bahwa . Bagaimana Anda menghubungkan persamaan ini dengan yang Anda berikan dalam jawaban Anda, ? Dalam persamaan Anda, Anda mendefinisikan dalam hal jumlah nilai tertimbang . Ini berbeda dari definisi yang saya miliki, yang mendefinisikan sebagai tertinggi .

V^{π} (s) = max_{a \in A} Q^{π} (s, a)

$V^\pi(s) = \max_{a \in A} Q^\pi(s, a)$

V^{π} (s) = \sum_{a \in A} π (a ∣ s) * Q^{π} (a, s)

$V^\pi(s) = \sum_{a \in A} \pi (a \mid s) * Q^\pi(a, s)$

V

$V$

Q

$Q$

V

$V$

Q

$Q$

— Nbro

@nbro Saya percaya ini tergantung pada kebijakan apa yang Anda ikuti. Dalam kebijakan rakus murni Anda benar. Tetapi jika itu adalah kebijakan yang lebih eksploratif, yang dibangun untuk secara stokastik memutuskan tindakan, maka hal di atas akan benar

— deltaskelta

7

Anda benar, fungsi memberi Anda nilai kondisi, dan memberi Anda nilai tindakan dalam kondisi (mengikuti kebijakan ). Saya menemukan penjelasan paling jelas tentang Q-learning dan cara kerjanya dalam buku Tom Mitchell "Machine Learning" (1997), ch. 13, yang dapat diunduh. didefinisikan sebagai jumlah dari deret tak hingga tetapi tidak penting di sini. Yang penting adalah fungsi didefinisikan sebagai $V$ $Q$ $\pi$ $V$ $Q$

Q (s, a) = r (s, a) + γ V^{*} (δ (s, a))

$Q(s,a ) = r(s,a ) + \gamma V^{*}(\delta(s,a))$ mana V * adalah nilai terbaik suatu negara jika Anda dapat mengikuti kebijakan optimal yang Anda tidak tahu Namun memiliki karakterisasi yang bagus dalam hal Komputasi dilakukan dengan mengganti dalam persamaan pertama untuk memberikan

Q

$Q$

V^{*} (s) = max_{a^{'}} Q (s, a^{'})

$V^{*}(s)= \max_{a'} Q(s,a')$

Q

$Q$

V^{*}

$V^*$

Q (s, a) = r (s, a) + γ max_{a^{'}} Q (δ (s, a), a^{'})

$Q(s, a) = r(s, a) + \gamma \max_{a'} Q(\delta(s, a), a')$

Ini mungkin tampak rekursi aneh pada awalnya karena ini menyatakan nilai Q suatu tindakan dalam kondisi saat ini dalam hal nilai Q terbaik dari negara penerus , tetapi masuk akal ketika Anda melihat bagaimana proses pencadangan menggunakannya: Eksplorasi proses berhenti ketika mencapai keadaan tujuan dan mengumpulkan hadiah, yang menjadi nilai Q transisi akhir itu. Sekarang dalam episode pelatihan berikutnya, ketika proses eksplorasi mencapai keadaan pendahulunya, proses pencadangan menggunakan persamaan di atas untuk memperbarui nilai Q saat ini dari kondisi pendahulunya. Berikutnya waktu yangpendahulunya dikunjungi bahwa nilai Q negara diperbarui, dan seterusnya kembali ke jalur (buku Mitchell menjelaskan cara yang lebih efisien untuk melakukan ini dengan menyimpan semua perhitungan dan mengulanginya nanti). Asalkan setiap negara dikunjungi tanpa batas sering proses ini pada akhirnya menghitung Q optimal

Kadang-kadang Anda akan melihat laju pembelajaran diterapkan untuk mengontrol seberapa banyak Q sebenarnya diperbarui: Perhatikan sekarang bahwa update ke nilai Q tidak tergantung pada nilai Q saat ini. Buku Mitchell juga menjelaskan mengapa itu dan mengapa Anda perlu : ini untuk stokastik stokastik. Tanpa , setiap kali keadaan, pasangan tindakan dicoba akan ada hadiah yang berbeda sehingga fungsi Q ^ akan terpental di semua tempat dan tidak bertemu. ada sehingga sebagai pengetahuan baru hanya diterima sebagian. $\alpha$

Q (s, a) = (1 - α) Q (s, a) + α (r (s, a) + γ max_{a^{'}} Q (s^{'}, a^{'}))

$Q(s, a) = (1-\alpha)Q(s, a) + \alpha(r(s, a) + \gamma \max_{a'} Q(s',a'))$

= Q (s, a) + α (r (s, a) + γ max_{a^{'}} Q (s^{'}, a^{'}) - Q (s, a))

$= Q(s, a) + \alpha(r(s, a) + \gamma \max_{a'} Q(s',a') - Q(s,a))$

α

$\alpha$

α

$\alpha$

α

$\alpha$

α

$\alpha$ diatur tinggi sehingga arus (kebanyakan nilai acak) dari Q kurang berpengaruh. berkurang saat pelatihan berlangsung, sehingga pembaruan baru memiliki pengaruh yang semakin sedikit, dan sekarang pembelajaran Q menyatu

α

$\alpha$

— SN
sumber

0

Berikut adalah penjelasan yang lebih rinci tentang hubungan antara nilai keadaan dan nilai tindakan dalam jawaban Harun. Pertama mari kita lihat definisi fungsi nilai dan fungsi nilai tindakan di bawah kebijakan : mana adalah return at time . Hubungan antara kedua fungsi nilai ini dapat diturunkan sebagai $\pi$

\begin{aligned} v_{π} (s) = E [G_{t} | S_{t} = s] \\ q_{π} (s, a) = E [G_{t} | S_{t} = s, A_{t} = a] \end{aligned}

$\begin{align} &v_{\pi}(s)=E{\left[G_t|S_t=s\right]} \\ &q_{\pi}(s,a)=E{\left[G_t|S_t=s, A_t=a\right]} \end{align}$

G_{t} = \sum_{k = 0}^{\infty} γ^{k} R_{t + k + 1}

$G_t=\sum_{k=0}^{\infty}\gamma^kR_{t+k+1}$

t

$t$

\begin{aligned} v_{π} (s) & = E [G_{t} | S_{t} = s] \\ = \sum_{g_{t}} p (g_{t} | S_{t} = s) g_{t} \\ = \sum_{g_{t}} \sum_{a} p (g_{t}, a | S_{t} = s) g_{t} \\ = \sum_{a} p (a | S_{t} = s) \sum_{g_{t}} p (g_{t} | S_{t} = s, A_{t} = a) g_{t} \\ = \sum_{a} p (a | S_{t} = s) E [G_{t} | S_{t} = s, A_{t} = a] \\ = \sum_{a} p (a | S_{t} = s) q_{π} (s, a) \end{aligned}

$\begin{align} v_{\pi}(s)&=E{\left[G_t|S_t=s\right]} \nonumber \\ &=\sum_{g_t} p(g_t|S_t=s)g_t \nonumber \\ &= \sum_{g_t}\sum_{a}p(g_t, a|S_t=s)g_t \nonumber \\ &= \sum_{a}p(a|S_t=s)\sum_{g_t}p(g_t|S_t=s, A_t=a)g_t \nonumber \\ &= \sum_{a}p(a|S_t=s)E{\left[G_t|S_t=s, A_t=a\right]} \nonumber \\ &= \sum_{a}p(a|S_t=s)q_{\pi}(s,a) \end{align}$ Persamaan di atas adalah penting. Ini menggambarkan hubungan antara dua fungsi nilai mendasar dalam pembelajaran penguatan. Ini berlaku untuk semua kebijakan. Selain itu, jika kita memiliki kebijakan deterministik , maka . Semoga ini bermanfaat bagi Anda. (untuk melihat lebih lanjut tentang persamaan optimalitas Bellman https: //stats.stackexchange.

v_{π} (s) = q_{π} (s, π (s))

$v_{\pi}(s)=q_{\pi}(s,\pi(s))$ )

— Jie Shi
sumber

0

Fungsi nilai adalah formulasi utilitas abstrak. Dan fungsi-Q digunakan untuk algoritma pembelajaran-Q.

— Imanuel
sumber

Untuk konteks pertanyaan ini, dan berbeda.

V

$V$

Q

$Q$

— Siong Thye Goh