DataLakeKomponenten
DataLakeKomponenten bezeichnet die Bausteine eines Data Lakes, einer zentralen Repository-Architektur zur Speicherung großer Mengen roher und transformierter Daten. Ziel ist es, Daten unterschiedlicher Herkunft in einer gemeinsamen Struktur zugänglich zu machen und sie für Analyse- und Reportingzwecke bereitzustellen.
Die Speicherschicht bildet die Grundlage. Sie nutzt kosteneffektive Objekt- oder Blob-Speicher und hält Rohdaten sowie transformierte
Die Ingestion- und Aufnahmeebene ermöglicht das Sammeln von Daten aus Quellsystemen, sowohl batchweise als auch in
Metadaten und Katalogisierung spielen eine zentrale Rolle für Auffindbarkeit, Verständnis und Governance. Ein Data Catalog samt
Verarbeitung und Compute umfassen die Transformationslogik und Abfrageleistung. Batch- und Streaming-Engines wie Spark, Flink oder Presto/Trino
Sicherheit, Governance und Betrieb schließen Zugriffskontrollen, Verschlüsselung, Audit-Logs, Datenqualität und Compliance ein. Orchestrierung, Überwachung und Metadata-Management