datapijlijn
Een datapijlijn is een samenhang van processen die data van bronsystemen naar doeltoepassingen transporteert, transformeert en beschikbaar stelt. Het doel is betrouwbare, tijdige en bruikbare data leveren voor analyse, rapportage en operationele besluitvorming.
Een datapijlijn bestaat uit onderdelen: gegevensinvoer (inzameling van ruwe data), verwerking (transformatie, schoonmaak, verrijking en validatie),
Ontwerpkeuzes omvatten batch- versus streamingverwerking, en ETL (extract, transform, load) of ELT (extract, load, transform). Andere
Technologieën en patronen die vaak in datapijlijnen voorkomen zijn onder meer orkestratietools (bijv. Apache Airflow of
Toepassingen van datapijlijnen omvatten rapportage en business intelligence, data-analyses, operationele dashboards en training van machine learning-modellen.