Metode saat ini untuk menerapkan motivasi adalah semacam penghargaan artifisial. DQN Deepmind misalnya didorong oleh skor permainan. Semakin tinggi skor, semakin baik. AI belajar untuk menyesuaikan tindakannya untuk mendapatkan poin terbanyak dan karenanya mendapatkan hadiah terbanyak. Ini disebut penguatan learing . Hadiah itu memotivasi AI untuk menyesuaikan tindakannya, begitulah.
Dalam istilah yang lebih teknis, AI ingin memaksimalkan utilitas, yang tergantung pada fungsi utilitas yang diterapkan . Dalam kasus DQN, ini akan memaksimalkan skor dalam game.
Otak manusia berfungsi dengan cara yang serupa, meskipun sedikit lebih kompleks dan seringkali tidak lurus ke depan. Kita sebagai manusia biasanya mencoba menyesuaikan tindakan kita untuk menghasilkan dopamin dan serotonin yang tinggi . Ini dengan cara yang mirip dengan hadiah yang digunakan untuk mengendalikan AI selama pembelajaran penguatan. Otak manusia mempelajari tindakan mana yang menghasilkan zat paling banyak dan menemukan strategi untuk memaksimalkan hasilnya. Ini tentu saja merupakan penyederhanaan dari proses yang rumit ini, tetapi Anda mendapatkan gambarannya.
Ketika Anda berbicara tentang motivasi, jangan campur dengan kesadaran atau kualifikasi . Itu tidak diperlukan untuk motivasi sama sekali. Jika Anda ingin mendiskusikan kesadaran dan kualifikasi dalam AI, itu adalah permainan bola yang sangat berbeda.
Seorang anak tidak penasaran karena penasaran. Ia mendapat penguatan positif ketika menjelajah karena fungsi utilitas otak anak menghargai eksplorasi dengan melepaskan neurotransmitter yang bermanfaat. Jadi mekanismenya sama. Menerapkan ini ke AI berarti mendefinisikan fungsi utilitas yang menghargai pengalaman baru. Tidak ada dorongan batin tanpa semacam imbalan yang menguat.