Ada banyak pendekatan yang bisa Anda ambil untuk ini. Membuat analog buatan yang realistis untuk rasa takut sebagaimana diterapkan secara biologis pada hewan mungkin dilakukan, tetapi ada cukup banyak yang terlibat dalam respons rasa takut hewan nyata yang tidak akan berlaku dalam bot AI yang lebih sederhana yang tersedia sekarang. Misalnya, hewan yang memasuki kondisi ketakutan biasanya akan menggunakan hormon untuk memberi sinyal perubahan di seluruh tubuhnya, mendukung pengeluaran sumber daya dan pengambilan risiko ("berkelahi atau melarikan diri").
Dalam pembelajaran penguatan dasar, jaringan saraf tidak perlu secara langsung memutuskan untuk mengaktifkan "mode ketakutan". Sebagai gantinya, Anda dapat menggunakan beberapa desain dalam agen dan algoritma pembelajaran untuk membantu belajar dari peristiwa langka namun penting. Berikut ini beberapa ide:
Putar ulang pengalaman. Anda mungkin sudah melakukan ini dalam skenario Pacman, jika Anda menggunakan DQN atau yang serupa. Menyimpan transisi negara dan hadiah yang menyebabkan hadiah positif atau negatif yang besar, dan berulang kali belajar darinya harus mengimbangi kekhawatiran Anda
Penyapuan yang diprioritaskan. Anda dapat menggunakan perbedaan yang lebih besar yang dialami antara hadiah yang diprediksi dan yang sebenarnya untuk bias pengambilan sampel dari memori ulangan Anda terhadap peristiwa penting dan yang terkait erat dengannya.
Perencanaan Dengan model prediktif - mungkin berdasarkan transisi sampel (Anda dapat menggunakan kembali memori replay pengalaman untuk ini), atau mungkin jaringan prediksi transisi keadaan terlatih - maka Anda dapat melihat beberapa langkah ke depan dengan mensimulasikan. Ada hubungan yang kuat antara RL dan perencanaan masa depan juga, mereka adalah algoritma yang sangat mirip. Perbedaannya adalah negara dan tindakan mana yang dipertimbangkan, dan apakah mereka disimulasikan atau dialami. Replay pengalaman mengaburkan garis di sini - dapat dibingkai sebagai pembelajaran dari memori, atau meningkatkan prediksi untuk perencanaan. Perencanaan membantu dengan mengoptimalkan keputusan tanpa perlu mengulangi pengalaman sebanyak mungkin - kombinasi perencanaan dan pembelajaran bisa jauh lebih kuat daripada keduanya secara terpisah.
Pilihan tindakan eksplorasi yang lebih cerdas. Epsilon-serakah, di mana Anda mengambil tindakan serakah atau mengambil tindakan yang benar-benar acak, sepenuhnya mengabaikan seberapa banyak Anda mungkin telah belajar tentang tindakan alternatif dan manfaat relatifnya. Anda dapat menggunakan sesuatu seperti Batas Keyakinan Tinggi dengan agen berbasis nilai.
Dalam dunia deterministik, tingkatkan ukuran batch untuk pembelajaran dan perencanaan, karena Anda dapat percaya bahwa ketika transisi dipelajari sekali, Anda tahu segalanya tentang hal itu.
Anda perlu bereksperimen di setiap lingkungan. Anda dapat membuat agen pembelajaran yang lebih konservatif dalam mengeksplorasi area dekat hadiah rendah. Namun, jika lingkungannya sedemikian rupa sehingga perlu mengambil risiko untuk mendapatkan hadiah terbaik (yang sering terjadi dalam permainan) maka mungkin tidak optimal dalam hal waktu belajar untuk memiliki agen "pemalu". Misalnya dalam contoh Pacman Anda, kadang-kadang hantu harus dihindari, kadang-kadang mereka harus dikejar. Jika agen tersebut awalnya belajar keengganan yang kuat, mungkin perlu waktu lama untuk mengatasinya dan belajar untuk mengejarnya setelah memakan power-up.
Sebagai contoh laba-laba Anda, sebagai pembangun percobaan maka Anda tahu bahwa gigitannya buruk setiap waktu dan bahwa agen harus menghindarinya sebanyak mungkin. Bagi kebanyakan algoritma RL, tidak ada pengetahuan seperti itu, kecuali diperoleh melalui pengalaman. Model dunia MDP tidak perlu cocok dengan akal sehat, mungkin gigitan laba-laba buruk (-10 hadiah) 90% dari waktu dan baik 10% dari waktu (+1000 hadiah). Agen hanya dapat menemukan ini dengan digigit beberapa kali. . . RL biasanya tidak memulai dengan sistem apa pun untuk membuat asumsi tentang hal semacam ini, dan mustahil untuk membuat aturan umum tentang semua MDP yang mungkin. Sebagai gantinya, untuk sistem RL dasar, Anda dapat mempertimbangkan memodifikasi hiperparameter atau berfokus pada peristiwa utama seperti yang disarankan di atas. Di luar sistem RL dasar mungkin ada manfaat dalam mereplikasi hal-hal lain,