Mari kita pikirkan situasi berikut:
- Anda sedang mengajar robot untuk bermain ping pong
- Anda sedang mengajar program untuk menghitung akar kuadrat
- Anda mengajar matematika kepada seorang anak di sekolah
Situasi-situasi ini (yaitu pembelajaran yang diawasi), dan banyak lainnya memiliki satu kesamaan (antara lain): pelajar mendapat hadiah berdasarkan kinerjanya.
Pertanyaan saya adalah, seperti apa fungsi hadiah itu? Apakah ada jawaban "terbaik", atau tergantung pada situasinya? Jika itu tergantung pada situasinya, bagaimana seseorang menentukan fungsi hadiah yang dipilih?
Misalnya, ambil tiga fungsi hadiah berikut:
- Fungsi
A
mengatakan:- di bawah titik tertentu, buruk atau lebih buruk adalah sama: Anda tidak mendapat apa-apa
- ada perbedaan yang jelas antara hampir baik dan sempurna
- Fungsi
B
mengatakan:- Anda mendapatkan hadiah yang sebanding dengan kinerja Anda
- Fungsi
C
mengatakan:- jika kinerja Anda buruk, tidak apa-apa, Anda melakukan yang terbaik: Anda masih mendapatkan hadiah
- tidak ada banyak perbedaan antara sempurna dan hampir baik
Secara intuitif, saya pikir A
akan membuat robot sangat fokus dan mempelajari pola yang tepat, tetapi menjadi bodoh ketika berhadapan dengan pola yang sama, sementara C
akan membuatnya lebih mudah beradaptasi untuk berubah dengan biaya kehilangan kesempurnaan.
Orang mungkin juga memikirkan fungsi yang lebih kompleks, hanya untuk menunjukkan tetapi sedikit:
Jadi, bagaimana cara mengetahui fungsi mana yang harus dipilih? Apakah diketahui perilaku mana yang akan muncul dari (paling tidak) dasar A
, B
dan C
fungsinya?
Pertanyaan sampingan adalah apakah ini akan berbeda secara mendasar untuk robot dan anak-anak manusia?
A
, robot bisa menjadi sangat baik pada tugas yang tepat, tetapi mengerikan pada tugas yang serupa tetapi sedikit berbeda. Tapi itu hanya dugaanku.
X
memberi saya hasil terbaik", bahkan jika tidak sepenuhnya benar, akan memberikan aturan praktis yang bagus.