Mengapa tidak ada probabilitas transisi dalam Q-Learning (reinforcement learning)?

Dalam pembelajaran penguatan, tujuan kami adalah untuk mengoptimalkan fungsi nilai-negara atau fungsi-nilai tindakan, yang didefinisikan sebagai berikut:

$V^{\pi}_s = \sum p(s'|s,\pi(s))[r(s'|s,\pi(s))+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s]$

$Q^{\pi}(s,a) = \sum p(s'|s,s)[r(s'|s,a)+\gamma V^{\pi}(s')]=E_{\pi}[r(s'|s,a)+\gamma V^{\pi}(s')|s_0=s,a_0=a]$

Namun, ketika kami menggunakan metode pembelajaran Q untuk mendapatkan strategi yang optimal, metode pembaruannya seperti berikut:

$Q(S,A) \leftarrow \ Q(S,A) + \alpha [R+\gamma max_a(Q(s',a)) -Q(S,A)]$

Pertanyaanku adalah:

mengapa dalam Q-learning tidak ada probabilitas transisi . Apakah ini berarti kita tidak memerlukan ini saat memodelkan MDP? $p(s'|s,a)$ $p$

reinforcement-learning q-learning

— hokies
sumber

Jawaban:

Algoritma yang tidak mempelajari fungsi probabilitas transisi-negara disebut model-free . Salah satu masalah utama dengan algoritma berbasis model adalah bahwa sering ada banyak negara, dan model naif adalah kuadratik dalam jumlah negara. Itu membebankan persyaratan data yang sangat besar.

Q-learning bebas model. Itu tidak mempelajari fungsi probabilitas transisi negara.

— Neil G
sumber

Namun, dalam MDP, selalu ada kemungkinan. Jika tidak ada probabilitas transisi, maksudnya ini bertentangan dengan asumsi dasar dalam Penguatan Pembelajaran, karena RL menganggap prosesnya adalah Markov.

— hokies

@ FzLbMj Tentu saja probabilitas transisi ada di suatu tempat. Intinya - seperti yang saya katakan - bahwa mereka tidak terpelajar .

— Neil G

@nbro Model-based artinya mempelajari dinamika lingkungan. Berikut adalah model yang melakukan itu: Kuvayev, D., dan Richard S. Sutton. Pembelajaran penguatan berbasis model. Tech. rept. universitas massachusetts, Departemen ilmu komputer, 1997. Untuk referensi, Anda dapat menggunakan google scholar ketika Anda tidak tahu sesuatu.

— Neil G

Saya baru saja mengirim Anda sebuah makalah yang dapat Anda baca yang memiliki algoritma mempelajari probabilitas transisi. Lihat bagian 5.

— Neil G

@nbro Kami jelas memiliki perbedaan pendapat tentang definisi, jadi jika Anda ingin meyakinkan, dukung pernyataan Anda dengan referensi.

— Neil G

Untuk kejelasan, saya pikir Anda harus mengganti dengan karena hanya ada satu fungsi nilai tindakan, kami hanya mengevaluasi Q pada tindakan di negara berikutnya. Notasi ini juga mengisyaratkan di mana terletak. $max_a(Q', a)$ $max_a(Q(S', a))$ $p(s'|s, a)$

Secara intuitif, adalah properti dari lingkungan. Kami tidak mengontrol cara kerjanya tetapi hanya mengambil sampel darinya. Sebelum kita menyebut pembaruan ini, pertama-tama kita harus mengambil tindakan A saat dalam keadaan S. Proses melakukan ini memberi kita hadiah dan mengirimkan kita ke keadaan berikutnya. Status selanjutnya yang Anda gunakan diambil dari menurut definisi itu. Jadi, dalam pembaruan Q-learning kita pada dasarnya menganggap adalah 1 karena di situlah kita berakhir. $p(s'|s, a)$ $p(s'|s, a)$ $p(s'|s, a)$

Ini ok karena ini merupakan metode berulang di mana kami memperkirakan fungsi nilai tindakan optimal tanpa mengetahui dinamika penuh lingkungan dan lebih khusus lagi nilai . Jika Anda memiliki model lingkungan yang memberikan informasi ini kepada Anda, Anda dapat mengubah pembaruan untuk memasukkannya dengan hanya mengubah kembali ke . $p(s|s', a)$ $\gamma p(S'|S, A)max_a(Q(S', a))$

— Alex
sumber

terima kasih banyak atas balasan anda Jadi, ketika kita menggunakan Q-learning, kita hanya menganggap semua tindakan memiliki probabilitas yang sama. BTW, apakah Anda punya ide tentang metode mana ( SARSAatau Q-learning) yang harus digunakan ketika berhadapan dengan situasi yang berbeda? Terima kasih.

— hokies

Kami tidak menganggap semua tindakan memiliki probabilitas yang sama. Kami berasumsi bahwa fungsi transisi adalah deterministik untuk perhitungan kami. Berarti jika Anda mengambil tindakan yang sama dari keadaan yang sama, Anda akan tiba di keadaan berikutnya yang sama. Untuk Sarsa vs Q-learning lihat di sini: stackoverflow.com/questions/6848828/…

— Alex

Selain hal di atas, Q-Learning adalah algoritma model-gratis , yang berarti bahwa agen kami hanya mengetahui keadaan apa yang diberikan oleh lingkungan. Dengan kata lain, jika agen memilih dan melakukan tindakan, negara berikutnya ditentukan oleh lingkungan saja dan memberikan kepada agen. Untuk alasan itu, agen tidak memikirkan probabilitas transisi negara.

— mustafamuratcoskun
sumber