DatenverarbeitungsPipelines

DatenverarbeitungsPipelines bezeichnet eine Folge von Schritten, durch die Rohdaten aus Quellen aufgenommen, transformiert und schließlich an Ziele überführt werden. Ziel ist die konsistente, zeitgerechte und nachvollziehbare Bereitstellung von Daten für Analysen, Berichte oder Anwendungen. Pipelines können sowohl im regelmäßigen Batchbetrieb als auch in nahezu Echtzeit betrieben werden.

Typische Bestandteile sind Datenquellen (Datenbanken, Dateien, APIs), Ingestion oder Extract-Schritte, Transformationslogik (Bereinigung, Normalisierung, Anreicherung, Aggregation), Speicherschichten

Pipelines lassen sich nach Verarbeitungsart unterscheiden: Batch-Pipelines verarbeiten Daten in festen Intervallen; Streaming- oder Micro-Batch-Pipelines verarbeiten

Wichtige Herausforderungen sind Datenqualität, Schema-Evolution, Latenz, Skalierbarkeit und Fehlerhandhabung. Eine klare Datenherkunft (Data Lineage), Versionierung, idempotente

Zieldatenbanken)

Serving-Schichten

Scheduling-Engines,

Data-Governance

Compliance-Checks

–

–

–

–

transformieren)

Latenzanforderungen

Orchestrationswerkzeuge

Verarbeitungstechnologien

Messaging-Systeme

Alerting-Mechanismen

Reproduzierbarkeit

Zuverlässigkeit.

Zugriffskontrollen

gewährleisten.