datapipelineja
Datapipelineja ovat järjestelmien ja prosessien kokonaisuuksia, joiden avulla data siirtyy lähteestä kohteeseen. Ne keräävät, puhdistavat, muokkaavat ja yhdistävät dataa erillisistä lähteistä siten, että sitä voidaan hyödyntää analyyseissä, raportoinnissa tai sovelluksissa. Datapipelineja toteuttavat sekä on-premise- että pilvipohjaiset ratkaisut, ja ne voivat toimia sekä erä- että tapahtumapohjaisen käsittelyn rinnalla.
Keskeisiä osia ovat datalähteet, tiedon siirto ja integraatio, muokkaus ja puhdistus, rikastaminen sekä tallennus (data lake
Datapipelineja voidaan toteuttaa sekä batch- että streaming-malleina. Batch-pipelineissa data kerätään ja käsitellään määräajoin, kun taas streaming-pipeline
Laatu, hallittavuus ja läpinäkyvyys vaativat lineage-tietoa, metatietojen hallintaa sekä laatutarkastuksia. Datan hallinta ja tietoturva sekä säädösten
Hankaluuksia ovat viiveet, schema-evoluutio, skaalaus, virheiden toistuminen ja turvallisuus. Parhaat käytännöt ovat idempotentti suunnittelu, versionointi, testaus