Fehlerzustandsmanagement
Fehlerzustandsmanagement bezeichnet die Gesamtheit von Vorgehensweisen, Werkzeugen und Prozessen, die darauf abzielen, Fehler- oder Ausfallzustände in einem System frühzeitig zu erkennen, zu analysieren, einzudämmen, zu beheben und das Wiederauftreten zu verhindern. Es gilt für Software, Hardware, Netzwerke und Prozesse.
Typische Phasen sind Fehlererkennung, -analyse, Eindämmung, Behebung, Wiederherstellung und Nachbearbeitung. Erkennung erfolgt durch Monitoring, Logging und
Techniken umfassen Exception Handling, Retry mit Backoff, Timeouts, Failover, Redundanz und Graceful Degradation. In verteilten Systemen
Zu den Kennzahlen gehören MTTR (Mean Time To Repair), MTTD (Mean Time To Detect), Verfügbarkeit und Fehlerrate.
Anwendungsbeispiele reichen von Webdiensten mit Circuit Breaker- und Retry-Strategien bis zu eingebetteten Systemen mit Watchdog-Timern.