Kami dapat memecah masalah sebagai berikut:
Pertama, jika Anda memiliki dua titik di pesawat dan mengumpankan koordinat titik-titik tersebut ke jaringan saraf (misalnya, vektor ) dan dan latihlah pada label yang jarak sebenarnya (misalnya, ), itu harus dapat mempelajari hubungan ini dengan akurasi mendekati sewenang-wenang.<x0,y0,x1,y1>(x0−y0)2+(x1−y1)2−−−−−−−−−−−−−−−−−−√
Selanjutnya, jika Anda memiliki gambar yang mirip dengan apa yang Anda gambarkan, dan mengumpankannya melalui jaringan saraf yang berbeda (misalnya, CNN), dan sebagai label Anda menggunakan titik-titik dari dua titik (sekali lagi ), maka itu harus dapat mempelajari hubungan itu dengan akurasi yang sewenang-wenang sekali lagi.<x0,y0,x1,y1>
Tentu saja, tidak ada alasan untuk melakukan ini dalam dua jaringan saraf yang terpisah, jadi kita hanya bisa menggabungkan dua ujung ke ujung memiliki model yang mengambil gambar sebagai input dan jarak sebagai output.
Model ini perlu dilatih tentang data berlabel, jadi Anda harus membuat data sendiri atau memberi label gambar.
Tetapi jika Anda ingin mempelajari gagasan menutup jarak dengan cara yang kurang diawasi, Anda harus menggunakan pembelajaran penguatan. Dalam hal ini, Anda harus menyiapkan lingkungan yang memberi insentif agen untuk mengurangi jarak. Ini bisa sesederhana mendapatkan hadiah jika suatu tindakan mengurangi jarak.
Pendekatan lain adalah memberi insentif kepada agen dengan menggunakan hadiah di masa depan. Artinya, hadiah itu tidak hanya datang dari hasil keadaan cepat berikutnya, tetapi ada juga kontribusi dari keadaan selanjutnya yang mungkin, dan yang setelah itu, dan seterusnya. Ini adalah ide di balik Deep Q-Learning, dan saya menerapkan contoh sederhana (sangat mirip dengan apa yang Anda gambarkan) di notebook ini .
Jadi, sekarang pertanyaannya adalah: sudahkah implementasi ini melakukan sesuatu selain bergerak secara acak sampai mengikuti jalan menuju kesuksesan?
Dalam contoh Anda, Anda berbicara tentang memberi penghargaan kepada agen ketika agen itu mendarat di tujuan. Tetapi dalam apa yang saya jelaskan, itu mendapatkan hadiah dengan bergerak lebih dekat ke tujuan (baik melalui Fungsi-Q atau langsung dari lingkungan). Hal ini dapat dilakukan dengan mempelajari beberapa gagasan abstrak jarak (yang dapat diilustrasikan dalam versi yang diawasi).
Ketika seorang manusia mengetahui hal ini, itu karena alasan yang persis sama: manusia mendapatkan hadiah karena bergerak ke arah itu melalui rasa imbalan di masa depan.
Saya akan mengatakan bahwa, dengan cukup pelatihan dan data, pembelajaran penguatan dapat mempelajari konsep ini dengan mudah. Sejauh hadiah lain hadir di papan tulis (misalnya, "meminimalkan entropi papan tulis dan juga mencoba untuk mendapatkan hadiah"), Anda perlu memikirkan apa yang Anda minta. Apakah Anda lebih suka agen meminimalkan jarak atau memaksimalkan hadiah? Karena, secara umum, tidak bisa melakukan keduanya. Jika Anda mencari keseimbangan di antara keduanya, maka Anda benar-benar hanya mendefinisikan ulang hadiah untuk juga mempertimbangkan jarak.