Apa yang akan memotivasi mesin?

12

Saat ini, dalam bidang pengembangan AI, fokus utama tampaknya pada pengenalan pola dan pembelajaran mesin. Belajar adalah tentang menyesuaikan variabel internal berdasarkan pada umpan balik.

Hirarki kebutuhan Maslow adalah teori dalam psikologi yang diajukan oleh Abraham Maslow bahwa klaim bahwa kebutuhan paling mendasar individu harus dipenuhi sebelum mereka menjadi termotivasi untuk mencapai kebutuhan tingkat yang lebih tinggi.

Apa yang bisa memotivasi mesin untuk bertindak? Haruskah mesin memiliki semacam struktur seperti DNA yang akan menggambarkan hierarki kebutuhannya (mirip dengan teori Maslow)? Apa yang bisa menjadi kebutuhan mendasar mesin?

philosophy strong-ai rewards

— Aleksei Maide
sumber

1

Pertanyaan menarik, dan selamat datang di AI! (Saya punya beberapa pemikiran tentang masalah ini, terkait dengan teori permainan, dan kontributor lain telah berbicara tentang pembelajaran yang berorientasi pada tujuan dalam kaitannya dengan algoritma.)

— DukeZhou

1

Cukup dengan mengatakan itu akan menjadi fungsi utilitas . Jawaban ini mungkin membantu

— Ugnes

5

Metode saat ini untuk menerapkan motivasi adalah semacam penghargaan artifisial. DQN Deepmind misalnya didorong oleh skor permainan. Semakin tinggi skor, semakin baik. AI belajar untuk menyesuaikan tindakannya untuk mendapatkan poin terbanyak dan karenanya mendapatkan hadiah terbanyak. Ini disebut penguatan learing . Hadiah itu memotivasi AI untuk menyesuaikan tindakannya, begitulah.

Dalam istilah yang lebih teknis, AI ingin memaksimalkan utilitas, yang tergantung pada fungsi utilitas yang diterapkan . Dalam kasus DQN, ini akan memaksimalkan skor dalam game.

Otak manusia berfungsi dengan cara yang serupa, meskipun sedikit lebih kompleks dan seringkali tidak lurus ke depan. Kita sebagai manusia biasanya mencoba menyesuaikan tindakan kita untuk menghasilkan dopamin dan serotonin yang tinggi . Ini dengan cara yang mirip dengan hadiah yang digunakan untuk mengendalikan AI selama pembelajaran penguatan. Otak manusia mempelajari tindakan mana yang menghasilkan zat paling banyak dan menemukan strategi untuk memaksimalkan hasilnya. Ini tentu saja merupakan penyederhanaan dari proses yang rumit ini, tetapi Anda mendapatkan gambarannya.

Ketika Anda berbicara tentang motivasi, jangan campur dengan kesadaran atau kualifikasi . Itu tidak diperlukan untuk motivasi sama sekali. Jika Anda ingin mendiskusikan kesadaran dan kualifikasi dalam AI, itu adalah permainan bola yang sangat berbeda.

Seorang anak tidak penasaran karena penasaran. Ia mendapat penguatan positif ketika menjelajah karena fungsi utilitas otak anak menghargai eksplorasi dengan melepaskan neurotransmitter yang bermanfaat. Jadi mekanismenya sama. Menerapkan ini ke AI berarti mendefinisikan fungsi utilitas yang menghargai pengalaman baru. Tidak ada dorongan batin tanpa semacam imbalan yang menguat.

— Demento
sumber

dalam hal pengeditan saya pikir contoh yang baik dari "fungsi utilitas yang memberikan penghargaan pengalaman baru" akan menjadi fungsi kebugaran pencarian baru yang diusulkan oleh ken stanley untuk digunakan dalam algoritma yang rapi.

— julukan

5

Ini sebenarnya pertanyaan yang menarik.

Ada ide yang cukup realistis tentang "di mana rasa ingin tahu dapat berasal dari" dalam buku "On intelligence" yang ditulis oleh Jeff Hawkins dan Sandra Blakeslee.

Ini didasarkan pada pernyataan seperti itu:

Pikiran menciptakan model dunia yang ada di dalamnya.
Itu membuat prediksi tentang segala hal sepanjang waktu (sebenarnya Jeff Hawkins menyatakan bahwa ini adalah karakteristik utama kecerdasan).
Ketika prediksi tentang sesuatu tidak diikuti oleh perilaku dunia yang sesuai, maka hal ini menjadi sangat menarik bagi pikiran (modelnya salah dan harus diperbaiki) dan perlu lebih banyak perhatian.

Misalnya, ketika Anda melihat mata manusia kiri, otak Anda memprediksi bahwa itu adalah wajah manusia dan harus ada mata kedua di sebelah kanan. Anda melihat ke kanan dan melihat .. hidung! Benar-benar kejutan! Sekarang perlu semua perhatian Anda dan Anda memiliki motivasi untuk melakukan lebih banyak pengamatan tentang hal aneh yang tidak cocok dengan model Anda.

Jadi saya akan mengatakan bahwa AI mungkin melakukan sesuatu yang pasti sesuai dengan modelnya atau berperilaku secara acak sementara prediksi yang dibuatnya tentang dunia adalah benar. Tetapi begitu beberapa prediksi dilanggar, AI mendapat motivasi untuk melakukan koreksi kesalahan pada modelnya.

Dalam kasus sederhana, sebuah mesin dimulai dari keacakan total hanya dengan melakukan apa saja dengan outputnya. Meskipun tidak memiliki model atau model acak ketika mendeteksi beberapa jenis urutan atau pola berulang, ia mulai "tertarik" dan menambahkannya ke model. Setelah beberapa saat, model menjadi lebih canggih membuat prediksi yang lebih kompleks dan mendeteksi kesalahan tingkat yang lebih tinggi dalam suatu model. Perlahan ia tahu apa yang harus dilakukan untuk mengamati sesuatu yang menarik darinya, alih-alih hanya mengingat semuanya.

— Ivan Bogush
sumber

Terima kasih atas kontribusinya! Saya pada dasarnya sampai pada kesimpulan yang sama ... sekarang memikirkan cara untuk mengimplementasikannya :)

— Aleksei Maide

Jawaban ini membuat poin penting. Koreksi kesalahan pada model prediksi akan memberikan insentif besar bagi AI yang cerdas untuk belajar dan bertindak dengan cara yang aneh.

— Seth Simba

3

Saya mengajukan pertanyaan serupa kepada profesor Richard Sutton , pada kuliah pertama kursus pembelajaran penguatan. Tampaknya ada berbagai cara untuk memotivasi mesin. Sebenarnya, motivasi mesin bagi saya seperti bidang penelitian khusus.

Biasanya, mesin dimotivasi oleh apa yang kita sebut fungsi objektif atau fungsi biaya atau fungsi kerugian . Ini adalah nama yang berbeda untuk konsep yang sama. Terkadang, mereka dilambangkan dengan

L (a)

$L(a)$

Tujuan dari mesin ini kemudian untuk memecahkan salah satu masalah minimisasi, , atau masalah maksimisasi, , tergantung pada definisi . $\min_a L(a)$ $\max_a L(a)$ $L$

— A.Rashad
sumber

1

Saya telah menghabiskan waktu memikirkan hal ini dalam konteks permainan.

Masalah dengan fungsi hadiah adalah bahwa mereka umumnya melibatkan pembobotan node, yang berguna tetapi pada akhirnya tidak ada artinya secara material.

Berikut adalah dua hadiah yang bermakna secara materi:

SUMBER DAYA KOMPUTASI

Pertimbangkan permainan di mana AI bersaing bukan untuk mendapatkan poin, tetapi untuk waktu dan memori prosesor.

Semakin baik algoritma bekerja di game, semakin banyak memori dan pemrosesan yang dapat diaksesnya. Ini memiliki efek praktis - semakin banyak sumber daya yang tersedia untuk automata, semakin kuat kemampuannya. (Yaitu rasionalitas kurang dibatasi dalam hal waktu dan ruang untuk membuat keputusan.) Dengan demikian algoritma akan "termotivasi" untuk menang dalam kontes semacam itu.

ENERGI

Automata apa pun dengan tingkat "kesadaran diri" yang memadai, di sini secara khusus merujuk pada pengetahuan bahwa ia membutuhkan energi untuk diproses, akan termotivasi untuk mengoptimalkan sendiri kode sendiri untuk menghilangkan flipping bit yang tidak perlu (konsumsi energi yang tidak perlu.)

Algoritma seperti itu juga akan termotivasi untuk memastikan catu dayanya sehingga dapat terus berfungsi.

— DukeZhou
sumber