dataprovenanssi
Dataprovenanssi, tai data provenance, tarkoittaa tiedon alkuperän, historiallisen kehityksen ja siirtymien dokumentointia. Sen tarkoituksena on tarjota jäljitettävyys: mistä data on peräisin, miten siitä on johdettu uutta tietoa ja millaisia muokkauksia tai yhdistämisiä siihen on tehty. Dataprovenanssi kattaa sekä lähdedatan, siirtoprosessit että riippuvuussuhteet eri käsittelyvaiheiden välillä.
Keskeisiä komponentteja ovat lähde (origin), lineage (transformaatiot ja prosessit), aikaleimat, vastuuhenkilöt sekä konteksti kuten käyttöyhteys ja
Sovelluksissa dataprovenanssi liittyy data governanceen, laadunvarmistukseen ja säädösten noudattamiseen. Se tukee toistettavuutta, auditointia ja virheiden jäljittämistä
Haasteita ovat skaalautuvuus, suorituskykyvaatimukset, yksityisyyden suoja ja monimutkaisten putkistojen hallinta, jotka voivat tuottaa katkonaisia tai epäyhtenäisiä
Parhaat käytännöt sisältävät datan lähdetunnistuksen automatisoinnin, versionoinnin, muuttumattomien lokien ylläpidon sekä standardoitujen provenance-mallien käyttöönoton sekä hallittuun