Home

Fehlerbudgetierung

Fehlerbudgetierung ist ein Konzept aus der Site Reliability Engineering (SRE), das darauf abzielt, Zuverlässigkeit und Entwicklungsgeschwindigkeit auszubalancieren, indem eine quantitative Grenze für die zulässige Fehleranzahl bzw. Ausfallzeit festgelegt wird. Grundlage sind Service-Level-Objektive (SLOs) und Service-Level-Indikatoren (SLIs). Ein SLO definiert das gewünschte Maß an Zuverlässigkeit (z. B. Verfügbarkeit, Latenz), während das SLI das tatsächliche Maß misst. Das Fehlerbudget gibt an, wie viel Unzuverlässigkeit im definierten Zeitraum akzeptiert wird, bevor das SLO verletzt gilt.

Die Berechnung erfolgt typischerweise als Verhältnis der nicht erfüllten Zuverlässigkeitsziele: Fehlerbudget = (1 - SLO) × Zeitraum. Beispiel:

Anwendung: Teams überwachen das Fehlerbudget, um Release-Entscheidungen zu lenken. Bei hohem Budgetverbrauch können zusätzliche Sicherheitsmechanismen greifen,

Vorteile und Einschränkungen: Zu den Vorteilen gehören eine transparente Balance zwischen Zuverlässigkeit und Geschwindigkeit, bessere Priorisierung

Ein
SLO
von
99,9
%
Verfügbarkeit
pro
Monat
ergibt
eine
zulässige
Ausfallzeit
von
0,1
%
des
Monats,
ca.
43
Minuten.
Tatsächliche
Ausfallzeit
oder
Phasen
schlechter
Leistung
verbraucht
dieses
Budget.
Überschreitet
die
gemessene
Unzuverlässigkeit
das
Budget,
gilt
das
SLO
im
Zeitraum
als
verletzt.
Der
Budgetverbrauch
wird
oft
als
Burn
Rate
gemessen.
wie
eingeschränkte
Freigaben,
Canary-Deployments
oder
gezielte
Reliability-Investitionen.
Ein
noch
ungenutztes
Budget
kann
zu
aggressiveren
Release-Strategien
führen.
Die
Fehlerbudgetierung
fördert
eine
klare
Kommunikation
über
Risikotoleranz
und
erleichtert
Investitionsentscheidungen
in
Zuverlässigkeit.
von
Verbesserungen
und
eine
gemeinsame
Risikovorstellung
zwischen
Produkt-
und
Betriebsteams.
Herausforderungen
sind
Messgenauigkeit
der
SLIs,
potenzielles
Gaming
des
Systems,
sowie
Komplexität
in
verteilten
Systemen
und
bei
wechselnden
Belastungen.