Fehlerzustandsmanagement

Fehlerzustandsmanagement bezeichnet die Gesamtheit von Vorgehensweisen, Werkzeugen und Prozessen, die darauf abzielen, Fehler- oder Ausfallzustände in einem System frühzeitig zu erkennen, zu analysieren, einzudämmen, zu beheben und das Wiederauftreten zu verhindern. Es gilt für Software, Hardware, Netzwerke und Prozesse.

Typische Phasen sind Fehlererkennung, -analyse, Eindämmung, Behebung, Wiederherstellung und Nachbearbeitung. Erkennung erfolgt durch Monitoring, Logging und

Techniken umfassen Exception Handling, Retry mit Backoff, Timeouts, Failover, Redundanz und Graceful Degradation. In verteilten Systemen

Zu den Kennzahlen gehören MTTR (Mean Time To Repair), MTTD (Mean Time To Detect), Verfügbarkeit und Fehlerrate.

Anwendungsbeispiele reichen von Webdiensten mit Circuit Breaker- und Retry-Strategien bis zu eingebetteten Systemen mit Watchdog-Timern.

Ursachenfeststellung

Konfigurationsänderungen.

Wiederherstellung

Nachbearbeitung

Organisatorisch

sicherheitskritische