Home

Fehlerrobustheit

Fehlerrobustheit bezeichnet die Fähigkeit eines Systems, trotz Fehlern in Bausteinen, Eingaben oder Umgebungsbedingungen weiterhin funktionsfähig zu bleiben oder in einen sicheren bzw. reduzierten Betriebszustand überzugehen. Ziel ist es, Ausfälle einzelner Komponenten zu tolerieren, Fehler zu erkennen, zu isolieren und zu beheben, ohne dass das Gesamtsystem unbrauchbar wird. Dazu gehören Mechanismen wie Redundanz, Fehlererkennung und -korrektur, Fehlertoleranz sowie Strategien zur Wiederherstellung und zum sanften Funktionsumbau (Graceful Degradation).

Typische Ansätze umfassen zeitliche und räumliche Redundanz, diverse Implementierungen, Mehrheitsabstimmung (Triple Modular Redundancy), Checksummen, ECC, Parität,

Anwendungsbereiche reichen von Software- und Netzwerksystemen über eingebettete Steuerungen bis hin zu kritischen Infrastruktur- und Flugzeugsystemen.

CRC
sowie
Isolierung
durch
Grenzziehungen,
Watchdog-Timer,
Transaktionen
und
Failover-Verfahren.
Bei
Fehlern
erfolgt
oft
eine
automatische
Fehlerbehandlung,
Wiederholung,
Rollback
oder
Rollforward,
um
konsistente
Zustände
zu
halten.
Selbstheilung
kann
durch
Checkpoints,
Reconfiguration
oder
dynamische
Neuverteilung
von
Ressourcen
erreicht
werden.
Die
Bewertung
der
Fehlerrobustheit
erfolgt
durch
Verfügbarkeitsmetriken
(Verfügbarkeit,
MTBF,
MTTR)
sowie
durch
Sicherheits-
und
Belastungstests
(Fehlerinjektion,
Chaos-Engineering).
Wichtige
Planungsaspekte
sind
Kosten,
Komplexität,
Leistungs-
bzw.
Latenzeinbußen
und
das
gewünschte
Schutzniveau.
Fehlerrobustheit
ist
eng
mit
Reliability
und
Sicherheit
verknüpft
und
ergänzt
herkömmliche
Ansätze
der
Zuverlässigkeit,
indem
sie
explizit
das
Verhalten
unter
Störungen
adressiert.