Ketika merancang solusi untuk masalah-masalah seperti Lunar Lander di OpenAIGym , Reinforcement Learning adalah cara yang menggoda untuk memberikan agen kontrol tindakan yang memadai agar berhasil mendarat.
Tapi apa contoh di mana algoritma sistem kontrol, seperti pengontrol PID , akan melakukan pekerjaan yang memadai seperti, jika tidak lebih baik daripada, Penguatan Pembelajaran?
Pertanyaan-pertanyaan seperti ini sangat membantu dalam menjawab teori pertanyaan ini, tetapi tidak banyak membantu mengatasi komponen praktisnya.
Sebagai seorang insinyur Inteligensi Buatan, elemen apa dari domain masalah yang harus disarankan kepada saya bahwa kontroler PID tidak cukup untuk menyelesaikan masalah, dan algoritma Penguatan Pembelajaran seharusnya digunakan (atau sebaliknya)?