gegevensopschoning
Gegevensopschoning, ook wel data cleaning genoemd, is het proces waarbij fouten in gegevens worden opgespoord en gecorrigeerd om de kwaliteit van datasets te verbeteren. Doel is om inconsistenties, onvolledigheden en onnauwkeurigheden te verminderen zodat de gegevens betrouwbaarder zijn voor analyse, rapportage en operationeel gebruik.
Fouten in datasets kunnen ontstaan door invoerfouten, integraties uit verschillende systemen, afwijkende definities en verouderde records.
Belangrijke opschoningshandelingen zijn missing value handling, standaardisatie en normalisatie van datatypen, deduplicatie, foutencorrectie en validatie tegen
Een gestructureerd proces omvat identificatie van problemen, diagnose van oorzaken, selectie van correctiemechanismen, uitvoering en evaluatie