Dataflödesdesign
Dataflödesdesign är processen att utforma datasystem där data rör sig genom en serie bearbetningssteg i ett definierat flöde. Syftet är att skapa en pålitlig, skalbar och spårbar hantering av data från källor till mål. Dataflödet skrivs ofta som ett grafiskt diagram där noder representerar källor, transformationer och mål, och kan vara antingen batch- eller strömorienterat.
Viktiga begrepp är modularitet och separation av ansvar: varje steg utför en specifik uppgift och kan återanvändas.
Designartefakter inkluderar datamodell, metadata, data lineage och versionering av pipelines. Säkerhet och åtkomstkontroll samt datakvalitet är
Mönster och verktyg omfattar orkestrering av datapipelines, beroendestyrning och övervakning av pipeline-status. Streaming- och batchbearbetning följer
Användningsområden inkluderar affärsanalys, datawarehousing och realtidsövervakning, samt datautbyte mellan system. Fördelar är ökad modularitet, bättre skalbarhet