Fungsi hadiah apa yang menghasilkan pembelajaran yang optimal?

13

Mari kita pikirkan situasi berikut:

Anda sedang mengajar robot untuk bermain ping pong
Anda sedang mengajar program untuk menghitung akar kuadrat
Anda mengajar matematika kepada seorang anak di sekolah

Situasi-situasi ini (yaitu pembelajaran yang diawasi), dan banyak lainnya memiliki satu kesamaan (antara lain): pelajar mendapat hadiah berdasarkan kinerjanya.

Pertanyaan saya adalah, seperti apa fungsi hadiah itu? Apakah ada jawaban "terbaik", atau tergantung pada situasinya? Jika itu tergantung pada situasinya, bagaimana seseorang menentukan fungsi hadiah yang dipilih?

Misalnya, ambil tiga fungsi hadiah berikut:

masukkan deskripsi gambar di sini

Fungsi Amengatakan:
- di bawah titik tertentu, buruk atau lebih buruk adalah sama: Anda tidak mendapat apa-apa
- ada perbedaan yang jelas antara hampir baik dan sempurna
Fungsi Bmengatakan:
- Anda mendapatkan hadiah yang sebanding dengan kinerja Anda
Fungsi Cmengatakan:
- jika kinerja Anda buruk, tidak apa-apa, Anda melakukan yang terbaik: Anda masih mendapatkan hadiah
- tidak ada banyak perbedaan antara sempurna dan hampir baik

Secara intuitif, saya pikir Aakan membuat robot sangat fokus dan mempelajari pola yang tepat, tetapi menjadi bodoh ketika berhadapan dengan pola yang sama, sementara Cakan membuatnya lebih mudah beradaptasi untuk berubah dengan biaya kehilangan kesempurnaan.

Orang mungkin juga memikirkan fungsi yang lebih kompleks, hanya untuk menunjukkan tetapi sedikit:

masukkan deskripsi gambar di sini

Jadi, bagaimana cara mengetahui fungsi mana yang harus dipilih? Apakah diketahui perilaku mana yang akan muncul dari (paling tidak) dasar A, Bdan Cfungsinya?

Pertanyaan sampingan adalah apakah ini akan berbeda secara mendasar untuk robot dan anak-anak manusia?

machine-learning

— Shahbaz
sumber

Saya ragu bahwa robot akan menjadi bodoh dengan melakukan hal yang sama atau serupa, kecuali menjadi cybernetic.

— ott--

@ott, bukan itu yang saya maksud. Yang saya maksudkan adalah dengan fungsi hadiah yang mirip dengan itu A, robot bisa menjadi sangat baik pada tugas yang tepat, tetapi mengerikan pada tugas yang serupa tetapi sedikit berbeda. Tapi itu hanya dugaanku.

— Shahbaz

Ah, oke, saya mengerti. Anda berpikir tentang tenis misalnya

— ott--

Mungkin teori di balik ini bisa rumit, tetapi jawaban yang mengatakan "Saya telah memikirkan tugas yang berbeda untuk banyak robot dan sering berfungsi Xmemberi saya hasil terbaik", bahkan jika tidak sepenuhnya benar, akan memberikan aturan praktis yang bagus.

— Shahbaz

5

Jawaban singkat: efek penguatan terkuat berasal dari pemberian hadiah yang berharga pada jadwal (acak) yang terputus-putus.

Versi yang lebih panjang: Salah satu aspek dari pertanyaan Anda adalah tentang pengkondisian operan , setidaknya seperti yang berlaku untuk mengajar matematika ke organisme yang kompleks. Menerapkan ini ke pembelajaran mesin dikenal sebagai pembelajaran penguatan .

Ekonomi (sesuai jawaban jwpat7 ) hanya membahas satu bagian kisah penguatan. Fungsi utilitas memberi tahu Anda imbalan apa yang memiliki efek penguatan terkuat (dampak terbesar pada perilaku) dalam konteks tertentu. Apakah itu pujian? cokelat? kokain? rangsangan listrik langsung ke area otak tertentu? Sebagian besar jawaban saya adalah tentang pengaruh konteks, dengan asumsi utilitas hadiah yang diberikan.

Untuk organisme / perilaku yang kompleks, penjadwalan hadiah setidaknya sama pentingnya dengan utilitas hadiah:

"Jadwal hadiah interval tetap" adalah cara yang paling tidak efektif untuk mengubah perilaku dengan jumlah hadiah tertentu (saya akan memberi Anda $ 10 per minggu jika Anda menjaga kamar Anda tetap rapi). Pikirkan bludger sedekah.
Jadwal imbalan rasio tetap (saya akan memberi Anda $ 10 setiap tujuh hari Anda memiliki kamar tidur rapi) lebih efektif daripada interval tetap, tetapi mereka memiliki semacam langit-langit efektif (subjek akan merapikan kamar mereka tujuh kali ketika mereka lapar untuk $ 10, tetapi tidak sebaliknya). Pikirkan tentara bayaran.
Cara paling berpengaruh untuk memberikan hadiah dengan "jadwal penguatan interval variabel" (mis. Setiap hari Anda merapikan kamar tidur, Anda memiliki peluang 1/7 untuk mendapatkan $ 10). Pikirkan mesin poker.

Jika Anda seorang pengawas pembelajaran dengan anggaran hadiah tetap, untuk situasi pembelajaran tertentu, akan ada keseimbangan ukuran dan utilitas hadiah yang optimal. Itu mungkin bukan potongan hadiah yang sangat kecil pada frekuensi yang sangat tinggi, atau potongan hadiah yang sangat besar yang diberikan sangat jarang. Bahkan mungkin berupa hadiah ukuran acak pada jadwal acak - yang optimal biasanya ditentukan secara eksperimental untuk situasi tertentu.

Akhirnya, jadwal "optimal" (frekuensi acak, kuantitas acak {p (hadiah), p (nilai)}) mungkin akan bervariasi pada berbagai tahap dalam proses pembelajaran. Sebagai contoh, murid baru mungkin terkena efek "keunggulan" (selamat datang! Punya jelly bean) yang dengan cepat menjadi hadiah interval tetap jika Anda mengulanginya. Mungkin ada efek "kebaruan" yang mendapat nilai penguatan lebih dari hadiah yang disampaikan pada percobaan terakhir ("finishing pada nada tinggi"). Di antaranya, mungkin ada "efek iman" akumulatif di mana ketika seorang pelajar menjadi lebih berpengalaman, yang optimal mungkin bergeser ke probabilitas yang lebih rendah, utilitas yang lebih tinggi dari waktu ke waktu. Sekali lagi, lebih banyak barang untuk menentukan secara empiris dalam situasi Anda.

— Chris Gough
sumber

Jawaban yang sangat menarik. Itu sangat masuk akal.

— Shahbaz

Saya membaca jawaban ini lagi, dan saya ingin sekali lagi mengatakan betapa hebatnya jawaban ini! Bahkan, izinkan saya memberi Anda hadiah!

— Shahbaz

6

"Pembelajaran optimal" adalah istilah yang sangat kabur, dan sepenuhnya tergantung pada masalah spesifik yang sedang Anda kerjakan. Istilah yang Anda cari adalah " overfitting ": masukkan deskripsi gambar di sini

(Garis hijau adalah kesalahan dalam memprediksi hasil pada data pelatihan, garis ungu kualitas model, dan garis merah adalah kesalahan dari model yang dipelajari yang digunakan "dalam produksi")

Dengan kata lain: ketika datang untuk mengadaptasi perilaku belajar Anda ke masalah yang sama, bagaimana Anda memberi penghargaan pada sistem Anda kurang penting daripada berapa kali Anda menghargainya - Anda ingin mengurangi kesalahan dalam data pelatihan, tetapi tidak menyimpannya dalam pelatihan sehingga lama itu kehilangan kemampuan untuk bekerja pada model yang sama.

Salah satu metode untuk mengatasi masalah ini adalah dengan memotong dua data pelatihan Anda: gunakan satu setengah untuk belajar dan setengah lainnya untuk memvalidasi pelatihan. Ini membantu Anda mengidentifikasi ketika Anda mulai terlalu bugar.

Fungsi hadiah non-linear

Sebagian besar algoritma pembelajaran yang diawasi mengharapkan aplikasi fungsi hadiah akan menghasilkan output yang cembung. Dengan kata lain, memiliki minimum lokal di kurva itu akan mencegah sistem Anda dari konvergen ke perilaku yang tepat. Video ini menunjukkan sedikit matematika di balik fungsi biaya / hadiah .

— Ian
sumber

3

Masalah-masalah ini ditangani, sampai batas tertentu, oleh studi fungsi utilitas dalam ekonomi. Fungsi utilitas mengungkapkan nilai yang efektif atau yang dirasakan dari satu hal dalam hal yang lain. (Sementara kurva yang ditunjukkan dalam pertanyaan adalah fungsi hadiah dan menyatakan berapa banyak hadiah yang akan ditender untuk berbagai tingkat kinerja, fungsi utilitas yang serupa dapat mengungkapkan berapa banyak hasil kinerja dari berbagai tingkat imbalan.)

Fungsi hadiah apa yang paling berhasil tergantung pada keseimbangan antara pembayar dan pelaku. Artikel kurva kontrak wikipedia diilustrasikan dengan kotak Edgeworth cara menemukan alokasi Pareto yang efisien . The Von Neumann-Morgenstern utilitas teorema melukiskan kondisi yang memastikan bahwa agen adalah VNM-rasional dan dapat dicirikan sebagai memiliki fungsi utilitas. Bagian "Prediksi perilaku yang dihasilkan dari utilitas HARA" dari artikel penghindaran risiko absolut Hiperbola di wikipedia menjelaskan konsekuensi perilaku fungsi utilitas tertentu.

Rangkuman: Topik-topik ini telah menjadi subjek dari sejumlah besar studi di bidang ekonomi dan ekonomi mikro. Sayangnya, mengekstrak ringkasan singkat dan berguna yang menjawab pertanyaan Anda mungkin juga membutuhkan banyak pekerjaan, atau perhatian seseorang yang lebih ahli daripada saya.

— James Waldby - jwpat7
sumber

Ini cukup rumit, saya tidak yakin apakah saya memahaminya. Tapi apakah Anda yakin fungsi utilitas ekonomi berlaku untuk robot juga? Dalam pembelajaran yang diawasi (robot), pembayar sebenarnya tidak kehilangan apa-apa. Hadiahnya seringkali hanya berupa angka yang memberitahu robot seberapa baik mereka melakukan tugas.

— Shahbaz

1

Fungsi hadiah yang optimal tergantung pada tujuan pembelajaran, yaitu apa yang harus dipelajari. Untuk masalah sederhana dimungkinkan untuk menemukan representasi formulir tertutup untuk fungsi hadiah yang optimal. Bahkan untuk masalah yang sangat sederhana, saya yakin itu mungkin meskipun saya tahu tidak ada metode formal untuk melakukannya (saya menduga teori utilitas akan menjawab pertanyaan ini). Untuk masalah yang lebih kompleks saya berpendapat bahwa tidak mungkin untuk menemukan solusi bentuk tertutup.

Alih-alih mencari fungsi yang optimal, kita bisa mencari ahli untuk fungsi hadiah yang baik. Salah satu pendekatan untuk melakukannya adalah teknik yang disebut Inverse Reinforcement Learning (IRL). Ini merumuskan masalah belajar sebagai masalah pembelajaran penguatan di mana fungsi hadiah tidak diketahui dan tujuan dari proses pembelajaran. Makalah Pembelajaran Magang melalui Inverse Reinforcement Learning oleh Pieter Abbeel dan Andrew Ng adalah tempat yang baik untuk mulai belajar tentang IRL.

— DaemonMaker
sumber

0

Segala bentuk pembelajaran yang diawasi adalah pencarian terarah di ruang kebijakan. Anda mencoba menemukan kebijakan - tindakan yang harus diambil - yang memberikan harapan imbalan maksimal. Dalam pertanyaan Anda, Anda memberikan hadiah sebagai fungsi kinerja. Selama fungsi ini monoton, metode apa pun yang konvergen pada akhirnya akan memberi Anda kinerja maksimal (tetap menggunakan terminologi Anda).

Seberapa cepat metode konvergen adalah masalah lain, dan mungkin tergantung pada kurva. Tapi saya pikir ini akan berbeda dari metode ke metode.

Masalah yang sama sekali berbeda adalah bahwa untuk skenario yang lebih kompleks kinerja bukan skalar sederhana, dan mendefinisikannya bisa sangat sulit. Apa fungsi imbalan karena pandai matematika?

— Jakob
sumber

Seberapa cepat metode konvergen adalah masalah lain, dan mungkin tergantung pada kurva. ya tentu saja. Saya mencoba memahami bagaimana kurva memengaruhi belajar (dan tidak jika itu terjadi, karena saya sudah tahu itu).

— Shahbaz