MARalgoritmes
MARalgoritmes zijn algoritmen voor leren van gedrag in omgevingen waarin meerdere agenten tegelijk handelen en de beloningen afhangen van hun gezamenlijke acties. In tegenstelling tot single-agent reinforcement learning veroorzaken interacties tussen agenten vaak non-stationariteit en complexe credit-toewijzing tussen agenten.
Ze worden vaak bestudeerd als Markov-spellen (stochastische spellen) waarbij elk agent een eigen beleidsfunctie heeft en
Typische methoden omvatten zowel waardegebaseerde als beleidsgebaseerde benaderingen. Voorbeelden van waardegebaseerde methoden zijn onafhankelijke Q-learning en
Toepassingen strekken zich uit over robotische teams, verkeersregeling, slimme energienetwerken, autonome voertuigen en complexe spelsituaties. Benchmarks