Pertanyaan yang diberi tag «reinforcement-learning»

Seperangkat strategi dinamis dimana algoritma dapat mempelajari struktur lingkungan online dengan secara adaptif mengambil tindakan yang terkait dengan hadiah yang berbeda untuk memaksimalkan imbalan yang diperoleh.

5
Apa perbedaan antara pembelajaran di luar kebijakan dan pembelajaran di luar kebijakan?
Situs web kecerdasan buatan mendefinisikan pembelajaran di luar kebijakan dan di-kebijakan sebagai berikut: "Pelajar di luar kebijakan mempelajari nilai kebijakan optimal secara independen dari tindakan agen. Pembelajaran Q adalah pelajar di luar kebijakan. Pelajar di luar kebijakan mempelajari nilai kebijakan yang dilakukan oleh agen termasuk langkah-langkah eksplorasi . " Saya …


2
Mengapa tidak ada mesin pembelajaran penguatan yang dalam untuk catur, mirip dengan AlphaGo?
Komputer sudah lama bisa bermain catur menggunakan teknik "brute-force", mencari ke kedalaman tertentu dan kemudian mengevaluasi posisi. Namun komputer AlphaGo, hanya menggunakan JST untuk mengevaluasi posisi (itu tidak melakukan pencarian mendalam sejauh yang saya tahu). Apakah mungkin untuk membuat mesin catur yang memainkan catur dengan cara yang sama seperti AlphaGo …


2
Pembelajaran terawasi, pembelajaran tanpa pengawasan dan pembelajaran penguatan: Dasar-dasar alur kerja
Pembelajaran terawasi 1) Manusia membangun classifier berdasarkan input dan output data 2) Pengklasifikasi tersebut dilatih dengan serangkaian data pelatihan 3) Klasifikasi itu diuji dengan serangkaian data uji 4) Penempatan jika output memuaskan Untuk digunakan ketika, "Saya tahu cara mengklasifikasikan data ini, saya hanya perlu Anda (pengklasifikasi) untuk mengurutkannya." Titik metode: …


3
Analisis Rangkaian Waktu Harian
Saya mencoba melakukan analisis deret waktu dan saya baru di bidang ini. Saya memiliki hitungan harian acara dari 2006-2009 dan saya ingin menyesuaikan model deret waktu untuk itu. Inilah kemajuan yang telah saya buat: timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) Hasil plot yang saya dapatkan adalah: Untuk memverifikasi apakah ada musiman dan …

4
Bagaimana Anda merancang sistem pembelajaran mesin untuk memainkan Angry Birds?
Setelah bermain Angry Birds terlalu banyak, saya mulai mengamati strategi saya sendiri. Ternyata saya mengembangkan pendekatan yang sangat spesifik untuk mendapatkan 3 bintang di setiap level. Itu membuat saya bertanya-tanya tentang tantangan mengembangkan sistem pembelajaran mesin yang akan mampu memainkan Angry Birds. Berinteraksi dengan permainan dan meluncurkan burung-burung itu sepele. …

2
Apa itu Pembelajaran Penguatan Berulang
Baru-baru ini saya menemukan kata "Pembelajaran Penguatan Berulang". Saya mengerti apa itu "Jaringan Syaraf Berulang" dan apa itu "Pembelajaran Penguatan", tetapi tidak dapat menemukan banyak informasi tentang apa itu "Pembelajaran Penguatan Berulang". Dapatkah seseorang menjelaskan kepada saya apa yang dimaksud dengan "Pembelajaran Penguatan Berulang" dan apa perbedaan antara "Pembelajaran Penguatan …

1
Kapan memilih SARSA vs. Q Learning
SARSA dan Pembelajaran Q keduanya adalah algoritma pembelajaran penguatan yang bekerja dengan cara yang sama. Perbedaan yang paling mencolok adalah bahwa SARSA memiliki kebijakan sementara Q Learning tidak aktif. Aturan pembaruan adalah sebagai berikut: Q Belajar: Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γ\max_{a'}Q(s_{t+1},a')−Q(s_t,a_t)] SARSA: Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γQ(s_{t+1},a_{t+1})−Q(s_t,a_t)] di mana st,atst,ats_t,\,a_t dan rtrtr_t adalah status, aksi, dan hadiah pada …

4
Mengapa Q-Learning menggunakan epsilon-serakah selama pengujian?
Dalam makalah DeepMind tentang video game Deep Q-Learning untuk Atari (di sini ), mereka menggunakan metode epsilon-serakah untuk eksplorasi selama pelatihan. Ini berarti bahwa ketika suatu tindakan dipilih dalam pelatihan, tindakan tersebut dapat dipilih sebagai tindakan dengan nilai q tertinggi, atau tindakan acak. Memilih antara keduanya adalah acak dan berdasarkan …




4
Dalam situasi nyata seperti apa kita dapat menggunakan algoritma multi-arm bandit?
Bandit multi-lengan bekerja dengan baik dalam situasi di mana Anda memiliki pilihan dan Anda tidak yakin mana yang akan memaksimalkan kesejahteraan Anda. Anda dapat menggunakan algoritme untuk beberapa situasi kehidupan nyata. Sebagai contoh, belajar bisa menjadi bidang yang baik: Jika seorang anak mempelajari pertukangan kayu dan dia buruk dalam hal …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.