Apa perbedaan antara pembelajaran penguatan model dan berbasis model?

29

Tampaknya bagi saya bahwa setiap pelajar yang bebas model, belajar melalui coba-coba, dapat dibingkai ulang sebagai berbasis model. Dalam hal itu, kapankah pelajar yang bebas model pantas?

— vin
sumber

Lihat juga jawaban ini: qr.ae/TUtHbv .

— Nbro

Bagaimana maksud Anda bahwa Anda dapat membingkai ulang pelajar yang bebas model sebagai berbasis model?

— HelloGoodbye

Berikut ini versi tautan nbro yang tidak terpendek: Apa perbedaan antara pembelajaran penguatan model berbasis dan model bebas? (Quora)

— jrh

14

Pembelajaran penguatan model berbasis memiliki agen mencoba untuk memahami dunia dan membuat model untuk mewakilinya. Berikut model sedang mencoba untuk menangkap 2 fungsi, fungsi transisi dari negara dan fungsi reward . Dari model ini, agen memiliki referensi dan dapat merencanakannya. $T$ $R$

Namun, tidak perlu mempelajari model, dan agen dapat mempelajari kebijakan secara langsung menggunakan algoritma seperti Q-learning atau gradien kebijakan.

Pemeriksaan sederhana untuk melihat apakah algoritma RL berbasis model atau bebas model adalah:

Jika, setelah belajar, agen dapat membuat prediksi tentang keadaan dan hadiah selanjutnya sebelum mengambil setiap tindakan, itu adalah algoritma RL berbasis model.

Jika tidak bisa, maka itu adalah algoritma yang bebas model.

— Jaden Travnik
sumber

2

dalam kata-kata Anda, "tidak perlu mempelajari model", dan pertanyaan saya adalah: mengapa ada orang yang mengambil pendekatan berbasis model?

— vin

4

Salah satu contoh besar yang dapat saya pikirkan adalah ketika Anda ingin agen mengetahui tentang lingkungannya tanpa benar-benar mengoptimalkan apa pun. Ini adalah bagian dari masalah pembelajaran berkelanjutan, Anda perlu membangun model internal seperti "Saya menabrak dinding ketika sensor jarak saya membaca dinding dekat" maka agen itu dapat menggeneralisasi informasi itu ke beberapa tugas jika muncul.

— Jaden Travnik

2

terima kasih @Jaden Travnik. saya mengerti mengapa akan berguna untuk mempelajari representasi lingkungan ("saya menabrak dinding ketika jarak saya membaca dinding dekat") tanpa menyelesaikan beberapa tugas (misalnya menavigasi ke dapur). tetapi mengapa ini dianggap sebagai model bebas RL , dan bukan tugas belajar yang diawasi vanila?

— vin

2

Ini bukan pembelajaran yang diawasi karena tidak ada data berlabel. Agen tidak akan tahu apa artinya sinyal sehingga tidak bisa membedakan sensor jarak dari termometer. Apa yang dipelajari agen adalah prediksi sinyal berdasarkan sinyal lain, yang merupakan model dunianya sendiri.

— Jaden Travnik

2

dengan pendekatan berbasis model, agen belajar untuk memprediksi keadaan berikutnya, sesuai penjelasan awal Anda. ia melakukannya dengan belajar <x, y>, di mana x adalah (s1, action) dan y adalah (s2, hadiah). maaf jika saya salah menafsirkan, tetapi bukankah itu pembelajaran yang diawasi?

— vin

12

Apa perbedaan antara pembelajaran penguatan model dan berbasis model?

Dalam Penguatan Pembelajaran, istilah "berbasis model" dan "bebas model" tidak mengacu pada penggunaan jaringan saraf atau model pembelajaran statistik lainnya untuk memprediksi nilai, atau bahkan untuk memprediksi keadaan berikutnya (meskipun yang terakhir dapat digunakan sebagai bagian dari algoritma berbasis model dan disebut "model" terlepas dari apakah algoritma berbasis model atau bebas model).

Alih-alih, istilah ini merujuk secara ketat apakah, sementara selama belajar atau bertindak, agen menggunakan prediksi respons lingkungan. Agen dapat menggunakan prediksi tunggal dari model hadiah berikutnya dan status berikutnya (sampel), atau dapat meminta model untuk hadiah berikutnya yang diharapkan , atau distribusi penuh status selanjutnya dan hadiah berikutnya. Prediksi ini dapat diberikan sepenuhnya di luar agen pembelajaran - misalnya dengan kode komputer yang memahami aturan permainan dadu atau papan. Atau mereka dapat dipelajari oleh agen, dalam hal ini mereka akan menjadi perkiraan.

Hanya karena ada model lingkungan yang diterapkan, tidak berarti bahwa agen RL "berbasis model". Untuk memenuhi syarat sebagai "berbasis model", algoritma pembelajaran harus secara eksplisit merujuk model:

Algoritma yang murni sampel dari pengalaman seperti Kontrol Monte Carlo, SARSA, pembelajaran Q, Aktor-Critic adalah algoritma "model gratis" RL. Mereka mengandalkan sampel nyata dari lingkungan dan tidak pernah menggunakan prediksi yang dihasilkan dari keadaan berikutnya dan hadiah berikutnya untuk mengubah perilaku (meskipun mereka mungkin mengambil sampel dari memori pengalaman, yang hampir menjadi model).
Algoritma berbasis model dasar adalah Dynamic Programming (Kebijakan Iterasi dan Iterasi Nilai) - ini semua menggunakan prediksi model atau distribusi keadaan berikutnya dan hadiah untuk menghitung tindakan optimal. Khususnya dalam Pemrograman Dinamis, model harus memberikan probabilitas transisi keadaan, dan hadiah yang diharapkan dari pasangan tindakan, negara bagian apa pun. Perhatikan ini jarang merupakan model yang dipelajari.
Pembelajaran TD dasar, hanya menggunakan nilai-nilai negara, juga harus berbasis model agar dapat berfungsi sebagai sistem kontrol dan mengambil tindakan. Dalam rangka untuk memilih tindakan yang terbaik, perlu untuk query model yang memprediksi apa yang akan terjadi pada setiap tindakan, dan menerapkan kebijakan seperti $\pi(s) = \text{argmax}_a \sum_{s',r} p(s',r|s,a)(r + v(s'))$ mana $p(s',r|s,a)$ adalah probabilitas menerima hadiah $r$ dan keadaan selanjutnya $s'$ saat mengambil tindakan $a$ dalam keadaan $s$ . Fungsi $p(s',r|s,a)$ pada dasarnya adalah model.

Literatur RL membedakan antara "model" sebagai model lingkungan untuk pembelajaran "berbasis model" dan "bebas model", dan penggunaan pembelajar statistik, seperti jaringan saraf.

Dalam RL, jaringan saraf sering digunakan untuk mempelajari dan menggeneralisasi fungsi nilai, seperti nilai Q yang memprediksi pengembalian total (jumlah hadiah diskon) yang diberikan keadaan dan pasangan tindakan. Jaringan saraf yang terlatih seperti itu sering disebut "model" dalam pembelajaran yang diawasi misalnya. Namun, dalam literatur RL, Anda akan melihat istilah "penaksir fungsi" yang digunakan untuk jaringan tersebut untuk menghindari ambiguitas.

Tampaknya bagi saya bahwa setiap pelajar yang bebas model, belajar melalui coba-coba, dapat dibingkai ulang sebagai berbasis model.

Saya pikir di sini Anda menggunakan pemahaman umum dari kata "model" untuk memasukkan struktur yang membuat prediksi yang berguna. Itu akan berlaku untuk misalnya tabel nilai Q di SARSA.

Namun, seperti yang dijelaskan di atas, bukan itu istilah yang digunakan dalam RL. Jadi, meskipun pemahaman Anda bahwa RL membangun representasi internal yang berguna benar, Anda secara teknis tidak benar bahwa ini dapat digunakan untuk membingkai ulang antara "bebas model" sebagai "berbasis model", karena istilah-istilah tersebut memiliki makna yang sangat spesifik dalam RL .

Dalam hal itu, kapankah pelajar yang bebas model pantas?

Umumnya dengan keadaan terkini dalam RL, jika Anda tidak memiliki model yang akurat yang disediakan sebagai bagian dari definisi masalah, maka pendekatan bebas-model seringkali lebih unggul.

Ada banyak minat pada agen yang membangun model prediksi lingkungan, dan melakukannya sebagai "efek samping" (sementara masih menjadi algoritma model-bebas) masih bisa berguna - mungkin mengatur jaringan saraf atau membantu menemukan prediksi kunci fitur yang juga dapat digunakan dalam jaringan kebijakan atau nilai. Namun, agen berbasis model yang mempelajari model mereka sendiri untuk perencanaan memiliki masalah yang ketidaktepatan dalam model ini dapat menyebabkan ketidakstabilan (ketidakakuratan berlipat lebih jauh ke masa depan terlihat agen). Beberapa terobosan yang menjanjikan sedang dibuat menggunakan agen berbasis imajinasi dan / atau mekanisme untuk memutuskan kapan dan berapa banyak mempercayai model yang dipelajari selama perencanaan.

Saat ini (pada 2018), jika Anda memiliki masalah dunia nyata di lingkungan tanpa model yang diketahui secara eksplisit di awal, maka taruhan teraman adalah menggunakan pendekatan bebas model seperti DQN atau A3C. Itu mungkin berubah karena lapangan bergerak cepat dan arsitektur baru yang lebih kompleks bisa menjadi norma dalam beberapa tahun.

— Neil Slater
sumber

1

Sebuah koreksi kecil, biasanya istilah "model based" atau "model free" tidak digunakan untuk algoritma perencanaan seperti MCTS. Ini hanya digunakan untuk mengklasifikasikan algoritma pembelajaran.

— Miguel Saraiva

@MiguelSaraiva: Saya tidak 100% yakin tentang itu, tetapi telah menghapus referensi ke MCTS. Tidak tertarik, di mana Anda akan menempatkan DynaQ mengenai batasan penggunaan persyaratan ini? Saya pikir itu menjadi rumit, ketika semua algoritma memiliki pandangan yang sama tentang model MDP dan meningkatkan kebijakan, untuk mengetahui di mana batasan antara perencanaan dan pembelajaran.

— Neil Slater

Saya bisa saja salah, saya seorang pemula di daerah tersebut. Saya hanya ingat seorang guru dari lapangan membuat komentar itu setelah saya melakukan komentar yang sama.

— Miguel Saraiva

5

$a$ $s$ $s'$ $r$

Tujuan utama agen adalah untuk mengumpulkan jumlah hadiah terbesar "dalam jangka panjang". Untuk melakukan itu, agen perlu menemukan kebijakan yang optimal (kira-kira, strategi optimal untuk berperilaku di lingkungan). Secara umum, suatu kebijakan adalah fungsi yang, mengingat keadaan lingkungan saat ini, mengeluarkan suatu tindakan (atau distribusi probabilitas atas tindakan, jika kebijakan tersebut bersifat stokastik ) untuk dieksekusi di lingkungan tersebut. Kebijakan dengan demikian dapat dianggap sebagai "strategi" yang digunakan oleh agen untuk berperilaku di lingkungan ini. Kebijakan optimal (untuk lingkungan tertentu) adalah kebijakan yang, jika diikuti, akan membuat agen mengumpulkan jumlah hadiah terbesar dalam jangka panjang (yang merupakan tujuan agen). Dalam RL, kami tertarik untuk mencari kebijakan yang optimal.

Lingkungan dapat bersifat deterministik (yaitu, kira-kira, tindakan yang sama dalam keadaan yang sama mengarah ke keadaan berikutnya yang sama, untuk semua langkah waktu) atau stochastic (atau non-deterministik), yaitu, jika agen mengambil tindakan dalam keadaan tertentu, keadaan lingkungan berikutnya yang dihasilkan mungkin tidak selalu selalu sama: ada kemungkinan bahwa itu akan menjadi keadaan tertentu atau yang lain. Tentu saja, ketidakpastian ini akan membuat tugas menemukan kebijakan yang optimal lebih sulit.

Dalam RL, masalahnya sering dirumuskan secara matematis sebagai proses keputusan Markov (MDP). MDP adalah cara untuk mewakili "dinamika" lingkungan, yaitu cara lingkungan akan bereaksi terhadap tindakan yang mungkin dilakukan agen, pada kondisi tertentu. Lebih tepatnya, MDP dilengkapi dengan fungsi transisi (atau "model transisi"), yang merupakan fungsi yang, mengingat kondisi lingkungan saat ini dan tindakan (yang mungkin dilakukan oleh agen), menghasilkan probabilitas untuk pindah ke dari negara bagian berikutnya. Sebuah fungsi rewardjuga terkait dengan MDP. Secara intuitif, fungsi hadiah menghasilkan hadiah, mengingat kondisi lingkungan saat ini (dan, mungkin, tindakan yang diambil oleh agen dan kondisi lingkungan berikutnya). Secara kolektif, fungsi transisi dan penghargaan sering disebut sebagai model lingkungan. Untuk menyimpulkan, MDP adalah masalahnya dan solusi untuk masalahnya adalah kebijakan. Selanjutnya, "dinamika" lingkungan diatur oleh fungsi transisi dan penghargaan (yaitu, "model").

Namun, kita sering tidak memiliki MDP, yaitu, kita tidak memiliki fungsi transisi dan penghargaan (dari MDP yang terkait dengan lingkungan). Karenanya, kami tidak dapat memperkirakan kebijakan dari MDP, karena tidak diketahui. Perhatikan bahwa, secara umum, jika kita memiliki fungsi transisi dan hadiah dari MDP yang terkait dengan lingkungan, kita dapat mengeksploitasinya dan mengambil kebijakan yang optimal (menggunakan algoritma pemrograman dinamis).

Dengan tidak adanya fungsi-fungsi ini (yaitu, ketika MDP tidak diketahui), untuk memperkirakan kebijakan yang optimal, agen perlu berinteraksi dengan lingkungan dan mengamati respons lingkungan. Ini sering disebut sebagai "masalah pembelajaran penguatan", karena agen perlu memperkirakan kebijakan dengan memperkuat keyakinannya tentang dinamika lingkungan. Seiring waktu, agen mulai memahami bagaimana lingkungan merespons tindakannya, dan dengan demikian dapat mulai memperkirakan kebijakan yang optimal. Dengan demikian, dalam masalah RL, agen memperkirakan kebijakan optimal untuk berperilaku dalam lingkungan yang tidak diketahui (atau sebagian diketahui) dengan berinteraksi dengannya (menggunakan pendekatan "coba-dan-kesalahan").

Dalam konteks ini, berbasis modelAlgoritma adalah algoritma yang menggunakan fungsi transisi (dan fungsi hadiah) untuk memperkirakan kebijakan yang optimal. Agen mungkin hanya memiliki akses ke perkiraan fungsi transisi dan fungsi hadiah, yang dapat dipelajari oleh agen saat berinteraksi dengan lingkungan atau dapat diberikan kepada agen (misalnya oleh agen lain). Secara umum, dalam algoritma berbasis model, agen berpotensi memprediksi dinamika lingkungan (selama atau setelah fase pembelajaran), karena agen memiliki estimasi fungsi transisi (dan fungsi hadiah). Namun, perhatikan bahwa fungsi transisi dan hadiah yang digunakan agen untuk meningkatkan estimasi kebijakan optimal mungkin hanya perkiraan dari fungsi "benar". Oleh karena itu, kebijakan optimal mungkin tidak pernah ditemukan (karena perkiraan ini).

Sebuah model bebas algoritma adalah suatu algoritma yang memperkirakan kebijakan optimal tanpa menggunakan atau memperkirakan dinamika (transisi dan reward fungsi) dari lingkungan. Dalam praktiknya, algoritma model-bebas memperkirakan "fungsi nilai" atau "kebijakan" langsung dari pengalaman (yaitu, interaksi antara agen dan lingkungan), tanpa menggunakan fungsi transisi maupun fungsi hadiah. Fungsi nilai dapat dianggap sebagai fungsi yang mengevaluasi keadaan (atau tindakan yang diambil dalam keadaan), untuk semua keadaan. Dari fungsi nilai ini, suatu kebijakan kemudian dapat diturunkan.

Dalam praktiknya, salah satu cara untuk membedakan antara algoritma berbasis model atau model-bebas adalah dengan melihat algoritma dan melihat apakah mereka menggunakan fungsi transisi atau penghargaan.

Misalnya, mari kita lihat aturan pembaruan utama dalam algoritma Q-learning :

Q (S_{t}, {SEBUAH}_{t}) \leftarrow Q (S_{t}, {SEBUAH}_{t}) + α (R_{t + 1} + γ \underset{Sebuah}{maks} Q (S_{t + 1}, Sebuah) - Q (S_{t}, {SEBUAH}_{t}))

$Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha (R_{t+1} + \gamma \max_{a}Q(S_{t+1}, a) - Q(S_t, A_t))$

$R_{t+1}$

Sekarang, mari kita lihat aturan pembaruan utama dari algoritma peningkatan kebijakan :

Q (s, Sebuah) \leftarrow \sum_{s^{'} \in S, r \in R} hal (s^{'}, r | s, Sebuah) (r + γ V (s^{'}))

$Q(s,a) \leftarrow \sum_{s' \in \mathcal{S}, r\in\mathcal{R}}p(s',r|s,a)(r+\gamma V(s'))$

$p(s',r|s,a)$

— nbro
sumber

2

Model Bebas RL

Dalam Model-Free RL, agen tidak memiliki akses ke model lingkungan. Lingkungan maksud saya fungsi yang memprediksi transisi negara dan penghargaan.

Pada saat penulisan, metode bebas model lebih populer dan telah diteliti secara luas.

Berbasis Model RL

Dalam RL Berbasis Model, agen memiliki akses ke model lingkungan.

Keuntungan utama adalah ini memungkinkan agen untuk merencanakan ke depan dengan berpikir ke depan. Agen menyaring hasil dari perencanaan ke depan menjadi kebijakan yang dipelajari. Contoh terkenal dari RL Berbasis Model adalah AlphaZero .

Kelemahan utama adalah bahwa representasi lingkungan yang sering kali tidak selalu tersedia.

Di bawah ini adalah taksonomi lengkap dari algoritma RL, yang dapat membantu Anda untuk memvisualisasikan lanskap RL yang lebih baik.

— Rrz0
sumber

1

Menurut OpenAI - Jenis Algoritma RL , algoritma yang menggunakan model lingkungan, yaitu fungsi yang memprediksi transisi dan penghargaan negara, disebut metode berbasis model , dan yang tidak disebut bebas model . Model ini dapat diberikan kepada agen atau dipelajari oleh agen.

Menggunakan model memungkinkan agen untuk merencanakan dengan berpikir ke depan, melihat apa yang akan terjadi untuk berbagai pilihan yang mungkin, dan secara eksplisit memutuskan di antara opsi-opsinya. Ini mungkin berguna ketika berhadapan dengan masalah yang membutuhkan pemikiran jangka panjang. Salah satu cara untuk melakukan perencanaan adalah dengan menggunakan semacam pencarian pohon, misalnya pencarian pohon Monte Carlo (MCTS), atau - yang saya duga juga dapat digunakan - varian dari pohon acak yang mengeksplorasi cepat (RRT). Lihat misalnya Agen yang membayangkan dan merencanakan .

Agen kemudian dapat menyaring hasil dari perencanaan ke depan menjadi kebijakan yang dipelajari - ini dikenal sebagai iterasi ahli.

Model juga dapat digunakan untuk membuat lingkungan yang disimulasikan, atau "dibayangkan," di mana negara diperbarui dengan menggunakan model, dan membuat agen belajar di dalam lingkungan itu, seperti di World Model .

Dalam banyak skenario dunia nyata, model lingkungan-kebenaran dasar tidak tersedia untuk agen. Jika seorang agen ingin menggunakan model dalam kasus ini, ia harus mempelajari modelnya, yang bisa jadi menantang karena beberapa alasan.

Namun ada kasus di mana agen menggunakan model yang sudah dikenal dan akibatnya tidak harus mempelajari model, seperti di AlphaZero , di mana model tersebut datang dalam bentuk aturan permainan.

— Halo selamat tinggal
sumber

1

Meskipun ada beberapa jawaban yang baik, saya ingin menambahkan paragraf ini dari Reinforcement Learning: An Introduction , halaman 303, untuk pandangan yang lebih psikologis tentang perbedaannya.

Perbedaan antara algoritma pembelajaran penguatan model-bebas dan berbasis model sesuai dengan perbedaan yang dibuat oleh psikolog antara kontrol kebiasaan dan tujuan-diarahkan dari pola perilaku yang dipelajari. Kebiasaan adalah pola perilaku yang dipicu oleh rangsangan yang tepat dan kemudian dilakukan lebih atau kurang secara otomatis. Perilaku yang diarahkan pada tujuan, menurut cara psikolog menggunakan frasa, bertujuan dalam arti dikendalikan oleh pengetahuan tentang nilai tujuan dan hubungan antara tindakan dan konsekuensinya. Kebiasaan kadang-kadang dikatakan dikendalikan oleh rangsangan anteseden, sedangkan perilaku yang diarahkan pada tujuan dikatakan dikendalikan oleh konsekuensinya (Dickinson, 1980, 1985). Kontrol yang diarahkan oleh tujuan memiliki keuntungan bahwa ia dapat dengan cepat mengubah perilaku hewan ketika lingkungan mengubah caranya bereaksi terhadap tindakan hewan tersebut. Sementara perilaku kebiasaan merespons dengan cepat terhadap input dari lingkungan yang terbiasa, ia tidak dapat dengan cepat menyesuaikan diri dengan perubahan di lingkungan.

Terus berjalan dari sana, dan memiliki contoh yang bagus sesudahnya.

Saya pikir poin utama yang tidak selalu dijelaskan dalam jawaban lain, adalah bahwa dalam pendekatan bebas model Anda masih memerlukan semacam lingkungan untuk memberi tahu Anda apa hadiah yang terkait dengan tindakan Anda. Perbedaan besar adalah bahwa Anda TIDAK perlu menyimpan informasi apa pun tentang model. Anda memberi lingkungan tindakan yang Anda pilih, Anda memperbarui perkiraan kebijakan Anda, dan Anda melupakannya. Di sisi lain, dalam pendekatan berbasis model, Anda perlu mengetahui riwayat transisi status seperti dalam Pemrograman Dinamis, atau Anda harus dapat menghitung semua kemungkinan status berikutnya dan imbalan terkait, dari kondisi saat ini.

— Miguel Saraiva
sumber