Home

Datenversionen

Datenversionen bezeichnet verschiedene Zustände eines Datensatzes oder einer Sammlung, die im Laufe der Zeit entstehen. Jede Version spiegelt einen fixen Stand der Daten zu einem bestimmten Zeitpunkt wider und wird üblicherweise durch eine Versionsnummer, einen Zeitstempel oder beides identifiziert. Datenversionierung dient der Nachvollziehbarkeit, Reproduzierbarkeit von Analysen, Rollback-Möglichkeiten und der Einhaltung von Governance- und Compliance-Anforderungen.

Es gibt verschiedene Ansätze: Bei snapshot-basierten Verfahren wird zu bestimmten Zeitpunkten eine vollständige Kopie des Datensatzes

Metadaten und Herkunft: Versionen werden üblicherweise zusammen mit Metadaten wie Quelle, Erzeugungszeit, Autor und Vertrauenswürdigkeit beschrieben;

Best practices: klare Identifikation jeder Version, unveränderliche Speicherung, automatische Versionierung bei Änderungen, Verwendung von eindeutigen IDs,

Herausforderungen: Kosten durch Speicherbedarf, Konsistenz bei verteilten Systemen, Migration bei Schemaänderungen, Datenqualität. Anwendungsfälle: Reproduktionsfähigkeit von Analysen,

Beispiel: Ein Kundenstammdaten-Datensatz wird täglich aktualisiert; jede Nacht entsteht eine neue Version, wodurch zeitliche Vergleiche und

erstellt.
In
vielen
Systemen
werden
auch
inkrementelle
Änderungen
(Deltas)
gespeichert,
wodurch
Speicher-
und
Rechenaufwand
reduziert
werden.
Temporalität
bedeutet
zeitbasierte
Versionierung
in
relationalen
Datenbanken
mit
system-
oder
anwendungsseitigen
Versionstabellen;
in
Data-Lake-Ökosystemen
setzen
sich
moderne
Formate
wie
Delta
Lake,
Apache
Hudi
und
Apache
Iceberg
durch,
die
Transaktionslogs,
Schema-Evolution
und
zeitbasierte
Abfragen
unterstützen.
Data-Lineage
zeigt,
wie
Daten
von
einer
Version
zur
nächsten
transformiert
wurden.
ggf.
semantische
Versionierung
Major/Minor/Patch
im
Data-Produktkatalog.
Governance-
und
Zugriffskontrollen
beachten.
Audits,
Backups
und
Wiederherstellung
nach
Fehlern.
Revisionsprüfungen
möglich
sind.