Home

Fehlerbudgets

Fehlerbudgets sind ein Konzept aus dem Site Reliability Engineering (SRE). Sie legen fest, wie viel Zuverlässigkeit ein Dienst in einem festgelegten Zeitraum maximal verlieren darf, gemessen an Service-Level-Objektiven (SLOs) und Service-Level-Indikatoren (SLIs). Das zentrale Ziel ist, Zuverlässigkeit und Innovation gegeneinander abzuwägen.

Das Fehlerbudget ergibt sich aus der Differenz zwischen dem Zielwert des SLO und der tatsächlichen Zuverlässigkeit.

In der Praxis dient das Budget als Steuerungsmechanismus: Solange das Fehlerbudget vorhanden ist, können Weiterentwicklungen, Experimente

Die Einführung von Fehlerbudgets erfordert klare Governance: gemeinsame SLOs, regelmäßige Berichterstattung, Postmortems zu Abweichungen und definierte

Formell:
Fehlerbudget
=
1
−
SLO.
Bei
einem
SLO
von
99,9
Prozent
Verfügbarkeit
entspricht
das
Fehlerbudget
0,1
Prozent
Downtime
im
Untersuchungszeitraum.
Über
30
Tage
bedeutet
das
rund
43
Minuten
ungeplante
Ausfallzeit.
SLIs
messen
beispielsweise
Verfügbarkeit,
Latenz
oder
Fehlerraten;
der
Vergleich
mit
dem
SLO
liefert
den
Verbrauch
des
Fehlerbudgets
über
den
Zeitraum.
oder
Releases
fortgeführt
werden.
Wenn
das
Budget
verbraucht
ist
oder
eine
hohe
Burn
Rate
vorliegt,
können
Maßnahmen
folgen,
wie
das
Verschieben
von
Releases,
strengere
Freigaben
oder
gezielte
Stabilitätsarbeiten,
um
die
Zuverlässigkeit
wiederherzustellen.
Prozesse,
wie
Entscheidungen
bei
Budgetverbrauch
getroffen
werden.
Risiken
umfassen
eine
zu
enge
Budgetierung,
die
Innovation
behindert,
oder
eine
zu
großzügige
Budgetierung,
die
zu
Instabilität
führt.