Fehlerrobustheit

Fehlerrobustheit bezeichnet die Fähigkeit eines Systems, trotz Fehlern in Bausteinen, Eingaben oder Umgebungsbedingungen weiterhin funktionsfähig zu bleiben oder in einen sicheren bzw. reduzierten Betriebszustand überzugehen. Ziel ist es, Ausfälle einzelner Komponenten zu tolerieren, Fehler zu erkennen, zu isolieren und zu beheben, ohne dass das Gesamtsystem unbrauchbar wird. Dazu gehören Mechanismen wie Redundanz, Fehlererkennung und -korrektur, Fehlertoleranz sowie Strategien zur Wiederherstellung und zum sanften Funktionsumbau (Graceful Degradation).

Typische Ansätze umfassen zeitliche und räumliche Redundanz, diverse Implementierungen, Mehrheitsabstimmung (Triple Modular Redundancy), Checksummen, ECC, Parität,

Anwendungsbereiche reichen von Software- und Netzwerksystemen über eingebettete Steuerungen bis hin zu kritischen Infrastruktur- und Flugzeugsystemen.

Grenzziehungen,

Watchdog-Timer,

Failover-Verfahren.

Fehlerbehandlung,

Reconfiguration

Fehlerrobustheit

Verfügbarkeitsmetriken

(Verfügbarkeit,

Belastungstests

(Fehlerinjektion,

Chaos-Engineering).

Planungsaspekte

Latenzeinbußen

Fehlerrobustheit

Zuverlässigkeit,