förstärkningslärning
Förstärkningslärning, eller reinforcement learning (RL) på engelska, är ett område inom maskininlärning som handlar om hur en agent bör agera i en miljö för att maximera en kumulativ belöning. Till skillnad från övervakad inlärning, där träningsdata består av input-output-par, får agenten i förstärkningslärning ingen explicit vägledning om vad som är rätt eller fel. Istället lär sig agenten genom "trial and error", genom att utföra handlingar och observera konsekvenserna i form av belöningar eller bestraffningar.
Kärnan i förstärkningslärning är ett system bestående av en agent och en miljö. Agenten observerar miljöns
Centrala koncept inom förstärkningslärning inkluderar tillstånd, handlingar, belöningar, policyer och värdefunktioner. Värdefunktioner uppskattar hur bra ett
Tillämpningsområden för förstärkningslärning är många och inkluderar bland annat robotik, spel (som schack och Go), autonoma