DataLakeArchitekturen
DataLakeArchitekturen beschreiben die architektonischen Konzepte zur Speicherung, Verarbeitung und Nutzung großer, heterogener Datensätze in einem Data Lake. Ziel ist es, kostengünstige Speicherung, Skalierbarkeit und flexible Nutzung von Roh- und verarbeiteten Daten zu ermöglichen, oft mit schema-on-read statt vordefiniertem Schema.
Typische Komponenten sind eine Speicherlage auf Basis objektbasiertem Storage, eine Verarbeitungsschicht für ETL/ELT und Streaming sowie
Datenorganisation erfolgt oft in Zonen oder Ebenen wie Rohdaten (Bronze), veredelte Daten (Silver) und kuratierte, konsumreife
Metadatenmanagement und Data Cataloging sind zentrale Stabilitätsanker: Sie erleichtern Entdeckung, Verständnis, Governance und Rückverfolgbarkeit der Daten
Architekturpattern variieren: Ein zentrales Data Lake-Setup, lakehouse-Ansätze, die Warehouse-Funktionen in den Lake integrieren, oder dezentrale Konzepte