datasetkwaliteit
Datasetkwaliteit is de mate waarin een dataset geschikt is voor het beoogde doel en betrouwbaar is voor analyse en besluitvorming. Kwaliteit wordt beoordeeld langs meerdere dimensies: nauwkeurigheid (juistheid van waarden), volledigheid (afwezigheid van ontbrekende gegevens), tijdigheid (actuele informatie), consistentie (intern coherente definities en relaties), geldigheid (conformiteit aan formaten en regels), toegankelijkheid en vindbaarheid (toegang, documentatie en metadata), provenance en traceerbaarheid (herkomst en bewerkingsgeschiedenis), representativiteit (de mate waarin de data de werkelijkheid weerspiegelt), granulariteit en privacy/veiligheid (beperking van risico’s en naleving van regelgeving).
Kwaliteitsbeoordeling gebeurt door data profiling, validatie en het volgen van kwaliteitsmetingen zoals foutpercentages, ontbrekende waarden, duplicaten
Kaders en normen zoals ISO 8000 en ISO/IEC 25012 bieden definities voor kwaliteitsprocessen; FAIR-principes beklemtonen vindbaarheid,
Een goede datasetkwaliteit vergroot betrouwbaarheid en reproduceerbaarheid van analyses en vormt een basis voor verantwoorde data-gedreven