RLnätverk
RLnätverk är neurala nätverk som används inom förstärkningsinlärning (reinforcement learning) för att approximera funktioner som policy eller värdefunktioner, eller för att modellera miljön. De tränas genom att agenten interagerar med en miljö och får återkoppling i form av belöningar, vilket syftar till att maximera den kumulativa belöningen över tiden. Genom att använda djupa nätverk kan RL-lösningar hantera högdimensionella eller komplexa indata, såsom bilder och sekvenser.
Användbara arkitekturer varierar beroende på problem. Feedforward-nät används ofta vid enklare uppgifter, konvolutionella nätverk används för
Träningsprocessen omfattar att samla transitioner som (state, action, reward, next state). Nätverken uppdateras med olika förlustfunktioner
Vanliga RLnätverksbaserade algoritmer inkluderar Deep Q-Networks (DQN) för diskreta åtgärdsrum, och policygradient- eller actor-critic-metoder som A2C/A3C,