dataintegrasjonspipelines

Dataintegrasjonspipelines refererer til sett av teknikker og prosesser som gjør det mulig å flytte data fra ulike kilder til et felles mål, ofte for analyse eller operasjonell bruk. Målet er å gjøre data tilgjengelig i et konsistent format og til riktig tidspunkt, slik at beslutninger baseres på oppdatert informasjon.

En typisk pipeline består av innhenting fra kilder (databaser, applikasjonssystemer, loggfiler), transport og lasting av data,

Det finnes ulike arkitekturmønstre. ETL (extract–transform–load) flytter og bearbeider data før lasting i målet, mens ELT

Styring og kvalitet er sentralt: metadata og datafangst sporer opprinnelse og avhengigheter, mens datalineage og versjonering

Distribusjon og drift inkluderer ofte skybaserte, on-premises eller hybride løsninger. Orkestrering og overvåking styrer avhengigheter og

Vanlige bruksområder inkluderer konsolidering av data fra flere systemer, operative dashboards, og grunnlag for avansert analyse

(standardisering,

feilkorrigering

i

(extract–load–transform)

målplattformens

transformasjon.

hendelsesstrømmer

i

Kvalitetskontroller

feilhåndtering

dataintegritetsproblemer,

tilgangskontroller

kostnadskontroll