Dalam makalah DeepMind tahun 2015 tentang pembelajaran penguatan dalam, ia menyatakan bahwa "Upaya sebelumnya untuk menggabungkan RL dengan jaringan saraf sebagian besar gagal karena pembelajaran yang tidak stabil". Makalah ini kemudian mencantumkan beberapa penyebabnya, berdasarkan korelasi antar pengamatan.
Tolong bisakah seseorang menjelaskan apa artinya ini? Apakah itu bentuk overfitting, di mana jaringan saraf mempelajari beberapa struktur yang ada dalam pelatihan, tetapi mungkin tidak hadir pada pengujian? Atau apakah itu berarti sesuatu yang lain?
Makalah ini dapat ditemukan: http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html
Dan bagian yang saya coba pahami adalah:
Pembelajaran penguatan dikenal tidak stabil atau bahkan berbeda ketika pendekatan fungsi nonlinier seperti jaringan saraf digunakan untuk mewakili fungsi aksi-nilai (juga dikenal sebagai Q) fungsi. Ketidakstabilan ini memiliki beberapa penyebab: korelasi hadir dalam urutan pengamatan, fakta bahwa pembaruan kecil untuk Q dapat secara signifikan mengubah kebijakan dan karenanya mengubah distribusi data, dan korelasi antara nilai-nilai tindakan dan nilai target.
Kami mengatasi ketidakstabilan ini dengan varian novel Q-learning, yang menggunakan dua gagasan utama. Pertama, kami menggunakan mekanisme yang diilhami secara biologis yang disebut replay pengalaman yang mengacak data, sehingga menghilangkan korelasi dalam urutan pengamatan dan memperlancar perubahan dalam distribusi data. Kedua, kami menggunakan pembaruan berulang yang menyesuaikan nilai tindakan (Q) terhadap nilai target yang hanya diperbarui secara berkala, sehingga mengurangi korelasi dengan target.