dataexportformaten
Dataexportformaten verwijzen naar gestructureerde manieren om data uit een systeem te exporteren en elders te gebruiken of te archiveren. Ze bepalen hoe data is georganiseerd, welke velden aanwezig zijn, welke datatypes worden gebruikt en hoe tekens worden gecodeerd. Een weloverwogen keuze hangt af van interoperabiliteit, datasetgrootte en het beoogde gebruik van de export.
Common dataexportformaten en kenmerken:
- CSV (Comma-Separated Values): eenvoudig en breed ondersteund voor tabulaire data. Nadeel: geen hiërarchie, geen expliciete datatype-aanduiding,
- JSON: gestructureerde, hiërarchische data; mens- en machineleesbaar; flexibel en wijdverspreid in API’s en data-uitwisseling. Nadelen: grotere
- XML: self-describing met namenruimten en validatie via XSD; geschikt voor complexe schema’s; vaak groter in formaat
- YAML: leesbaar voor mensen en geschikt voor configuratie en complexe data; minder streng dan JSON en
- Excel (XLSX/XLS): veel gebruikt door eindgebruikers en zakelijke processen; ondersteunt meerdere bladen en formules; minder ideaal
- Parquet en ORC: kolomgeoriënteerde formaten voor analytics; bieden efficiënte compressie en snelle analyses, maar vereisen gespecialiseerde
- Avro: binair row-based formaat met ingebouwd schema; veelwaarde in data-pijplines en streaming.
- SQL-dump: export van schema en data als SQL-instructies; handig voor herladen in relationele databases.
- RDF/Turtle: semantische webstandaarden voor gekoppelde gegevens; geschikt voor het beschrijven van relaties en ontologieën.
Overwegingen bij selectie: interoperabiliteit met systemen, beoogde analysemethoden, bestandsgrootte en verwerkingssnelheid, beschikbaarheid van parsers en ondersteuning