Jawaban:
Bootstrap di RL dapat dibaca sebagai "menggunakan satu atau lebih nilai estimasi dalam langkah pembaruan untuk jenis nilai estimasi yang sama".
Di sebagian besar aturan pembaruan TD, Anda akan melihat sesuatu seperti pembaruan SARSA (0) ini:
Nilai adalah perkiraan untuk nilai sebenarnya dari , dan juga disebut target TD. Ini adalah metode bootstrap karena kita sebagian menggunakan nilai Q untuk memperbarui nilai Q lainnya. Ada sejumlah kecil data nyata yang diamati dalam bentuk , hadiah langsung untuk langkah tersebut, dan juga dalam transisi keadaan .
Kontras dengan Monte Carlo di mana aturan pembaruan yang setara mungkin:
Di mana adalah total diskon hadiah pada waktu , dengan asumsi dalam pembaruan ini, itu dimulai dalam keadaan , mengambil tindakan , kemudian mengikuti kebijakan saat ini hingga akhir episode. Secara teknis, di manaadalah langkah waktu untuk terminal reward dan status. Khususnya, nilai target ini tidak menggunakan estimasi yang ada (dari nilai Q lainnya) sama sekali, itu hanya menggunakan satu set pengamatan (yaitu, hadiah) dari lingkungan. Dengan demikian, itu dijamin menjadi estimasi yang tidak bias dari nilai sebenarnya dari , karena secara teknis merupakan sampel dari .
Kerugian utama dari bootstrap adalah bias terhadap nilai awal (atau ) Anda. Mereka kemungkinan besar salah, dan sistem pembaruan dapat menjadi tidak stabil secara keseluruhan karena terlalu banyak referensi-diri dan tidak cukup data nyata - ini adalah masalah dengan pembelajaran di luar kebijakan (mis. Q-learning) menggunakan jaringan saraf.
Tanpa bootstrap, menggunakan lintasan yang lebih panjang, sering ada varians yang tinggi , yang, dalam praktiknya, berarti Anda membutuhkan lebih banyak sampel sebelum perkiraan bertemu. Jadi, terlepas dari masalah dengan bootstrap, jika dapat dibuat bekerja, ia dapat belajar secara signifikan lebih cepat, dan sering lebih disukai daripada pendekatan Monte Carlo.
Anda dapat berkompromi antara metode berbasis sampel Monte Carlo dan metode TD satu langkah yang melakukan bootstrap dengan menggunakan campuran hasil dari lintasan panjang yang berbeda. Ini disebut pembelajaran TD ( ) , dan ada berbagai metode spesifik seperti SARSA ( ) atau Q ( ).
Secara umum, bootstrap di RL berarti Anda memperbarui nilai berdasarkan beberapa perkiraan dan bukan pada beberapa nilai yang tepat . Misalnya
Pembaruan Evaluasi Kebijakan Monte Carlo yang ditambahkan:
TD (0) Pembaruan Evaluasi Kebijakan:
Di TD (0), yang kembali mulai dari negara adalah perkiraan (dinyalakan) oleh R t + 1 + γ V ( S t + 1 ) sementara di MC kita menggunakan tepat kembali G t .