Home

Fehlerzustandsmanagement

Fehlerzustandsmanagement bezeichnet die Gesamtheit von Vorgehensweisen, Werkzeugen und Prozessen, die darauf abzielen, Fehler- oder Ausfallzustände in einem System frühzeitig zu erkennen, zu analysieren, einzudämmen, zu beheben und das Wiederauftreten zu verhindern. Es gilt für Software, Hardware, Netzwerke und Prozesse.

Typische Phasen sind Fehlererkennung, -analyse, Eindämmung, Behebung, Wiederherstellung und Nachbearbeitung. Erkennung erfolgt durch Monitoring, Logging und

Techniken umfassen Exception Handling, Retry mit Backoff, Timeouts, Failover, Redundanz und Graceful Degradation. In verteilten Systemen

Zu den Kennzahlen gehören MTTR (Mean Time To Repair), MTTD (Mean Time To Detect), Verfügbarkeit und Fehlerrate.

Anwendungsbeispiele reichen von Webdiensten mit Circuit Breaker- und Retry-Strategien bis zu eingebetteten Systemen mit Watchdog-Timern.

Alarmierung.
Analyse
umfasst
Ursachenfeststellung
und
Auswirkungen.
Eindämmung
begrenzt
den
Fehler
auf
betroffene
Komponenten,
z.
B.
durch
Quarantäne
oder
Circuit
Breaker.
Behebung
umfasst
Patchen
oder
Konfigurationsänderungen.
Wiederherstellung
bedeutet
Normalbetrieb
oder
Redundanz.
Nachbearbeitung
sammelt
Lessons
Learned
und
aktualisiert
Runbooks.
sind
Observability,
Dashboards
und
strukturierte
Logs
zentral.
Organisatorisch
arbeiten
dafür
Incident
Manager,
Site
Reliability
Engineers
(SREs)
oder
DevOps-Teams.
Rahmenwerke
wie
ITIL
oder
ISO-Standards
liefern
etablierte
Abläufe;
sicherheitskritische
Bereiche
binden
Normen
wie
IEC
61508
oder
ISO
26262
ein.
Ziele
sind
die
Minimierung
von
Ausfallzeiten,
die
Verhinderung
recurrierender
Vorfälle
und
die
Sicherstellung
eines
zuverlässigen
Betriebs.