SREMethoden
SRE-Methoden umfassen Praktiken und Prinzipien, die darauf abzielen, die Zuverlässigkeit, Skalierbarkeit und Leistungsfähigkeit von IT-Systemen zu sichern. Der Begriff Site Reliability Engineering stammt aus Google und verbindet Software-Engineering-Ansätze mit betrieblichen Aufgaben, um Dienste trotz Wachstum stabil zu halten.
Zentrale Konzepte sind SLI (Service Level Indicators), SLO (Service Level Objectives) und Fehlertoleranz durch das Error
Zu operativen Praktiken gehören Toil-Reduktion durch Automatisierung, standardisierte Deployments und Monitoring. Incident-Response, blameless Postmortems, On-Call-Organisation, Runbooks
Reliability-Engineering umfasst Kapazitätsplanung, Belastungstests, Skalierbarkeit, Canary-Deployments, Feature Flags sowie Disaster-Recovery-Planung und Redundanz.
Beobachtbarkeit umfasst Metriken, Logs, Traces, Dashboards und SLO-basierte Alarmierung. Chaos-Engineering, Resiliency-Tests und regelmäßige Validierung helfen, Schwachstellen
Organisation und Kultur: SRE wird oft als spezialisierte Team- oder Plattform-Engineering-Funktion implementiert, die eng mit Entwicklungsteams
Kritik und Variationen: Nicht alle Unternehmen setzen SRE im klassischen Sinn um; es gibt Anpassungen im DevOps-