Home

ETLProzesse

ETLProzesse bezeichnet die Abfolge von Extract, Transform, Load, die verwendet wird, um Daten aus unterschiedlichen Quellsystemen zu sammeln, zu bereinigen und in ein Zielsystem wie ein Data Warehouse oder einen Data Lake zu überführen. Ziel ist es, konsistente, qualitativ hochwertige Daten für Analysen bereitzustellen.

Die drei Kernschritte: Extract bezieht Daten aus Quellsystemen, oft mit Konnektoren oder Schnittstellen. Transform umfasst Reinigung,

Der Ablauf wird in der Regel durch eine Orchestrierungslogik gesteuert, die zeitgesteuerte oder ereignisbasierte Jobs ausführt.

In der Praxis unterscheiden sich ETLProzesse oft von ELT: Beim ETL erfolgen Transformationen vor dem Laden,

Wichtige Aspekte sind Datenqualität, Validierung, Fehlerbehandlung, Logging, Monitoring, Sicherheits- und Compliance-Anforderungen sowie Metadaten und Datenherkunft ( lineage).

Normalisierung,
Entkoppelung,
Anreicherung
mit
Geschäftsdimensionen,
Mapping
von
Schemata
sowie
das
Durchführen
von
Regeln
und
Aggregationen.
Load
übernimmt
das
Speichern
der
transformierten
Daten
im
Ziel,
häufig
in
einer
dimensionalen
Modellierung
oder
in
einem
plattformgebundenen
Speichersystem.
ETLProzesse
können
batchbasiert
oder
in
Streaming
bzw.
near
Real-Time
erfolgen,
abhängig
von
Anforderungen
an
Aktualität
und
Konsistenz.
während
ELT
die
Rohdaten
zuerst
in
das
Zielsystem
schreibt
und
dort
transformiert.
Moderne
Data-Pipelines
kombinieren
häufig
beides
oder
nutzen
ELT-Ansätze
in
Data
Lakes
oder
Cloud-Plattformen.
Typische
Einsatzgebiete
sind
Data-Warehousing,
Business-Intelligence,
Data-Migrationen
und
konsolidierte
Berichte
aus
mehreren
Quellsystemen.