Namun, kedua pendekatan tersebut tampak identik dengan saya yaitu memprediksi hadiah maksimum untuk suatu tindakan (pembelajaran Q) setara dengan memprediksi probabilitas untuk mengambil tindakan secara langsung (PG).
Kedua metode secara teoritis didorong oleh konstruksi Proses Keputusan Markov , dan sebagai hasilnya menggunakan notasi dan konsep yang sama. Selain itu, dalam lingkungan sederhana yang dapat dipecahkan, Anda harus mengharapkan kedua metode menghasilkan kebijakan optimal yang sama - atau setidaknya setara - optimal.
Namun, mereka sebenarnya berbeda secara internal. Perbedaan yang paling mendasar antara pendekatan adalah bagaimana mereka mendekati seleksi tindakan, baik sambil belajar, dan sebagai output (kebijakan yang dipelajari). Dalam Q-learning, tujuannya adalah untuk mempelajari tindakan deterministik tunggal dari serangkaian tindakan terpisah dengan menemukan nilai maksimum. Dengan gradien kebijakan, dan pencarian kebijakan langsung lainnya, tujuannya adalah mempelajari peta dari keadaan ke tindakan, yang bisa bersifat stokastik, dan bekerja dalam ruang tindakan berkelanjutan.
Akibatnya, metode gradien kebijakan dapat memecahkan masalah yang metode berbasis nilai tidak dapat:
Ruang aksi besar dan berkelanjutan. Namun, dengan metode berbasis nilai, ini masih dapat didekati dengan diskritisasi - dan ini bukan pilihan yang buruk, karena fungsi pemetaan dalam gradien kebijakan harus menjadi semacam pendekatan dalam praktik.
Kebijakan stokastik. Metode berbasis nilai tidak dapat menyelesaikan suatu lingkungan di mana kebijakan optimal adalah stokastik yang membutuhkan probabilitas khusus, seperti Gunting / Kertas / Batu. Itu karena tidak ada parameter yang bisa dilatih dalam pembelajaran Q yang mengontrol probabilitas tindakan, perumusan masalah dalam pembelajaran TD mengasumsikan bahwa agen deterministik bisa optimal.
Namun, metode berbasis nilai seperti Q-learning juga memiliki beberapa kelebihan:
p ( a ∣ s , θ )θ
Kecepatan. Metode pembelajaran TD yang bootstrap seringkali jauh lebih cepat untuk mempelajari suatu kebijakan daripada metode yang harus murni mengambil sampel dari lingkungan untuk mengevaluasi kemajuan.
Ada alasan lain mengapa Anda mungkin ingin menggunakan satu atau pendekatan lain:
Anda mungkin ingin mengetahui hasil yang diprediksi saat proses berjalan, untuk membantu proses perencanaan lain yang terkait dengan agen.
Representasi negara dari masalah cenderung lebih mudah baik untuk fungsi nilai atau fungsi kebijakan. Fungsi nilai mungkin ternyata memiliki hubungan yang sangat sederhana dengan negara dan fungsi kebijakan sangat kompleks dan sulit dipelajari, atau sebaliknya .
Beberapa pemecah RL yang canggih benar-benar menggunakan kedua pendekatan secara bersamaan, seperti Actor-Critic. Ini menggabungkan kekuatan metode nilai dan gradien kebijakan.