FehlerToleranz

Fehlertoleranz bezeichnet die Fähigkeit eines Systems, trotz einzelner Fehler weiter zu funktionieren und akzeptable Ergebnisse zu liefern. Sie entsteht durch Architekturprinzipien wie Redundanz, Fehlererkennung, Fehlerbehandlung und Verifikation. Ziel ist es, Ausfälle zu verhindern oder deren Auswirkungen zu begrenzen, besonders in sicherheitskritischen Bereichen.

Man unterscheidet Hardware-Fehlertoleranz, Software- und Systemfehlertoleranz sowie Fehlertoleranz in verteilten Systemen und Netzwerken. Typische Anwendungsfelder sind

Zu den Techniken gehören Redundanz durch Duplizierung oder Triple-Modular Redundancy, Abstimmung bzw. Mehrheitsentscheidungen, Checkpoints und Rollbacks,

Architekturen zur Fehlertoleranz umfassen Duplex- oder Triple-Modul-Redundanz, Failover-Cluster, verteilte Replikation und Konsensprotokolle wie Paxos oder Raft,

Wichtige Kennzahlen sind Verfügbarkeit, MTBF, MTTF und Fehlerdichte. Zusätzlich spielen Recovery-Zeit (Ausfallzeit) und Wartungskosten eine Rolle

Häufige Herausforderungen sind erhöhte Kosten, erhöhte Komplexität, schwer detektierbare Fehler, Koordination in verteilten Systemen sowie Latenz-

Telekommunikation

Infrastrukturen,

Wiederherstellung

Fehlererkennung

Integritätsprüfungen.

Zuverlässigkeit

Wiederherstellung

Konsistenzprobleme

CAP-Überlegungen.