Pembelajaran Kooperatif Penguatan

10

Saya sudah memiliki implementasi berfungsi untuk agen tunggal yang mengerjakan masalah penetapan harga dinamis dengan tujuan memaksimalkan pendapatan. Masalah yang sedang saya tangani, bagaimanapun, melibatkan beberapa produk berbeda yang merupakan pengganti satu sama lain, sehingga penetapan harga mereka secara dinamis dengan pembelajar mandiri tampaknya tidak benar, karena harga satu memengaruhi hadiah yang lain. Tujuannya adalah untuk memberi harga secara dinamis pada mereka semua untuk memaksimalkan jumlah masing-masing pendapatan individu. $Q(\lambda)$

Saya telah melakukan beberapa penelitian untuk mencoba menemukan sesuatu yang menerapkan pembelajaran penguatan dengan cara ini, tetapi banyak implementasi multi-agen yang saya temukan lebih fokus pada permainan kompetitif daripada koperasi, atau mereka mengasumsikan pengetahuan yang tidak lengkap dari agen lain (saya ingin menyelesaikan pengetahuan masing-masing agen dalam skenario ini). Apakah ada aplikasi pembelajaran kooperatif yang diteliti dengan baik / didokumentasikan dengan cara ini?

machine-learning reinforcement-learning

— pengguna3704120
sumber

1

Anda bisa melihat kertas ini. Yang pertama cukup terkait dengan tugas Anda.
http://icamt2016.org/papers/SS-LTMLBDA-06-05.pdf http://researcher.watson.ibm.com/researcher/files/us-kephart/icml00_qrt.pdf

— Prayalankar
sumber

0

Secara keseluruhan, apa yang ingin Anda capai adalah efisiensi Pareto.

Untuk membuatnya kooperatif, Anda perlu mendefinisikan fungsi hadiah tunggal yang dibagikan oleh semua pemain (bisa jadi fungsi yang menggabungkan fungsi hadiah individu dalam beberapa cara).

Entah bagaimana, Anda perlu mempertimbangkan imbalan yang Anda dapatkan dari satu produk sehubungan dengan yang lain.

— Juan Leni
sumber