Bagaimana AI belajar bertindak ketika ruang masalahnya terlalu besar


10

Saya belajar paling baik melalui eksperimen dan contoh. Saya belajar tentang jaringan saraf dan memiliki (apa yang saya pikirkan) adalah pemahaman yang cukup baik tentang klasifikasi dan regresi dan juga pembelajaran yang diawasi dan tidak diawasi, tetapi saya menemukan sesuatu yang saya tidak bisa hening mencari tahu;

Jika saya ingin melatih AI untuk memainkan game yang rumit; Saya sedang memikirkan sesuatu seperti RTS (mis. Zaman Kerajaan, Kekaisaran Bumi dll.). Dalam jenis permainan ini biasanya ada sejumlah entitas yang dikendalikan oleh pemain (unit, bangunan) masing-masing dengan kemampuan yang berbeda. Sepertinya masalah yang AI lakukan adalah klasifikasi (mis. Pilih unit itu, dan tindakan itu), namun karena jumlah unit adalah variabel bagaimana seseorang menangani masalah klasifikasi dengan cara ini?

Satu-satunya hal yang dapat saya pikirkan adalah beberapa jaringan yang melakukan tahapan yang berbeda (satu untuk strategi keseluruhan, satu untuk mengendalikan jenis unit ini, satu untuk jenis bangunan dll); tapi ini sepertinya saya membuat masalah menjadi rumit.

Apakah ada contoh yang baik dari pembelajaran mesin / jaringan saraf yang mempelajari permainan yang kompleks (tidak secara khusus RTS, tetapi yang lebih rumit Mario )?




Sudahkah Anda melihat cs.toronto.edu/~vmnih/docs/dqn.pdf ?
xgdgsc

Jawaban:


4

Itu adalah pertanyaan yang bagus dan banyak ilmuwan di seluruh dunia menanyakan hal yang sama. Nah, pertama game seperti Age of Empires tidak dianggap memiliki ruang solusi yang sangat besar, tidak ada begitu banyak hal yang dapat Anda lakukan. Itu sama dalam game seperti Mario Bros. Masalah belajar dalam game mudah seperti game Atari diselesaikan oleh orang-orang dari DeepMind (di sini kertas ), yang diakuisisi oleh Google. Mereka menggunakan implementasi Reinforcement Learning dengan Deep Learning.

Kembali ke pertanyaan Anda. Masalah yang sangat besar adalah bagaimana meniru jumlah keputusan yang diambil manusia setiap hari. Bangun, sarapan, mandi, tinggalkan rumah Anda ... Semua tindakan ini membutuhkan tingkat kecerdasan yang sangat tinggi dan banyak tindakan untuk dikembangkan.

Ada banyak orang yang mengerjakan masalah ini, saya salah satunya. Saya tidak tahu solusinya tetapi saya dapat memberi tahu Anda dengan cara apa saya mencari. Saya mengikuti teori Marvin Minsky, dia adalah salah satu bapak AI. Buku ini, Mesin Emosi, menceritakan pandangan yang sangat baik tentang masalahnya. Dia menyarankan bahwa cara untuk membuat mesin yang meniru perilaku manusia bukan dengan membangun teori kompak kecerdasan buatan. Sebaliknya, ia berpendapat bahwa otak kita mengandung sumber daya yang saling bersaing untuk memenuhi tujuan yang berbeda pada saat yang sama. Mereka menyebut ini Cara Berpikir .


1

Pertanyaan yang bagus Ini adalah masalah kompleksitas, dan pendekatan yang Anda gunakan akan tergantung pada seberapa kompleks masalahnya. Setiap masalah yang kita coba selesaikan akan memiliki tingkat kerumitan yang terkait dengannya, bahasa sehari-hari didefinisikan sebagai "jumlah hal yang berinteraksi, atau hal-hal yang perlu dipertimbangkan." Dalam pembelajaran yang diawasi dan tidak diawasi kami menentukan secara tepat jumlah hal yang perlu dipertimbangkan.

Misalnya, dalam regresi linier berganda, kami memberi tahu algoritma pembelajaran berapa banyak fitur yang perlu dipertimbangkan saat memasang model (jumlah kolom dalam rangkaian pelatihan Anda). Situasi yang sama berlaku untuk pembelajaran tanpa pengawasan; satu set pelatihan yang terdefinisi dengan baik dengan sejumlah fitur eksplisit digunakan (dalam hal ini tanpa label).

Apa yang Anda hadapi adalah situasi yang tidak sesuai untuk klasifikasi atau regresi, karena Anda tidak dapat secara spesifik menentukan jumlah "hal-hal yang perlu dipertimbangkan". Seperti yang Anda katakan, ruang masalah Anda sangat besar. Cara lain untuk memikirkan ini adalah dalam hal set pelatihan yang diperlukan untuk mempelajari model; seberapa sulit bagimu membayangkan seperti apa rangkaian pelatihan itu? Dalam kasus Anda sulit. Apa sebenarnya isi kolom set saya?

Inilah sebabnya mengapa aplikasi seperti mobil self-driving, Atari, dan AlphaGo tidak menggunakan klasifikasi atau regresi. Tidak mungkin untuk mengetahui seperti apa set pelatihan itu nantinya. Anda dapat mencoba, tetapi model Anda akan gagal membuat prediksi yang andal (dalam hal ini bergerak). Berapa banyak hal yang harus Anda pertimbangkan untuk membangun model kondisi jalan?

Inilah sebabnya mengapa jenis ketiga pembelajaran mesin, pembelajaran penguatan, ada. Alih-alih menggunakan set pelatihan yang ditentukan sebelumnya, ia menggunakan trial and error. Dengan terus-menerus menyodok lingkungannya, ia dapat mempelajari kebijakan yang berfungsi dalam jangka panjang.

Jadi, untuk ruang masalah yang lebih kecil di mana kita memiliki peluang untuk mendefinisikan set pelatihan, kami menggunakan pembelajaran mesin yang diawasi dan tidak diawasi. Untuk ruang masalah yang lebih besar di mana sulit untuk menentukan set pelatihan, kami menggunakan pembelajaran penguatan. Tentu saja Anda juga dapat membuat kombinasi yang menarik dari semua pendekatan di atas, tetapi tetap saja rumit.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.