Situs web kecerdasan buatan mendefinisikan pembelajaran di luar kebijakan dan di-kebijakan sebagai berikut:
"Pelajar di luar kebijakan mempelajari nilai kebijakan optimal secara independen dari tindakan agen. Pembelajaran Q adalah pelajar di luar kebijakan. Pelajar di luar kebijakan mempelajari nilai kebijakan yang dilakukan oleh agen termasuk langkah-langkah eksplorasi . "
Saya ingin meminta klarifikasi Anda mengenai hal ini, karena sepertinya tidak ada bedanya dengan saya. Kedua definisi tersebut sepertinya identik. Apa yang sebenarnya saya pahami adalah pembelajaran yang bebas model dan berbasis model, dan saya tidak tahu apakah ada hubungannya dengan yang dipertanyakan.
Bagaimana mungkin kebijakan optimal dipelajari secara independen dari tindakan agen? Bukankah kebijakan itu dipelajari ketika agen melakukan tindakan?