Datenversionen

Datenversionen bezeichnet verschiedene Zustände eines Datensatzes oder einer Sammlung, die im Laufe der Zeit entstehen. Jede Version spiegelt einen fixen Stand der Daten zu einem bestimmten Zeitpunkt wider und wird üblicherweise durch eine Versionsnummer, einen Zeitstempel oder beides identifiziert. Datenversionierung dient der Nachvollziehbarkeit, Reproduzierbarkeit von Analysen, Rollback-Möglichkeiten und der Einhaltung von Governance- und Compliance-Anforderungen.

Es gibt verschiedene Ansätze: Bei snapshot-basierten Verfahren wird zu bestimmten Zeitpunkten eine vollständige Kopie des Datensatzes

Metadaten und Herkunft: Versionen werden üblicherweise zusammen mit Metadaten wie Quelle, Erzeugungszeit, Autor und Vertrauenswürdigkeit beschrieben;

Best practices: klare Identifikation jeder Version, unveränderliche Speicherung, automatische Versionierung bei Änderungen, Verwendung von eindeutigen IDs,

Herausforderungen: Kosten durch Speicherbedarf, Konsistenz bei verteilten Systemen, Migration bei Schemaänderungen, Datenqualität. Anwendungsfälle: Reproduktionsfähigkeit von Analysen,

Beispiel: Ein Kundenstammdaten-Datensatz wird täglich aktualisiert; jede Nacht entsteht eine neue Version, wodurch zeitliche Vergleiche und

anwendungsseitigen

Versionstabellen;

Data-Lake-Ökosystemen

Transaktionslogs,

Schema-Evolution

Major/Minor/Patch

Data-Produktkatalog.

Zugriffskontrollen

Wiederherstellung

Revisionsprüfungen