Batchindlæsning
Batchindlæsning er processen med at indlæse data i et mål-system i separate portioner (batches) på faste tidspunkter eller tidsvinduer, i stedet for kontinuerlig, realtidsopdatering. Den er centralt i datawarehouse- og rapportsystemer, hvor lave latenser ikke altid er nødvendige, eller hvor belastningen på kilde- og netværkssystemerne gør batchbaseret indlæsning mere økonomisk.
Processen består typisk af dataudtræk fra én eller flere kilder, transformation og rensning af data, validering
Forskellen mellem batchindlæsning og streaming er latenstid og kontinuitet: batch indlæser data periodisk og med begrænset
Der findes varianter som fuld indlæsning og inkrementel (incremental) indlæsning, hvor kun ændrede eller nye poster
Typiske spørgsmål og designovervejelser omfatter data kvalitet, versionering af data, idempotens, og hvor ofte batchkørsler skal
Fremtiden ser ofte en hybride tilgang, hvor batchkørsler kombineres med kortere batcher eller micro-batching for at