Datareiniging
Datareiniging is het proces waarbij onnauwkeurige, onvolledige, irrelevante of inconsistent data in datasets worden opgespoord en gecorrigeerd of verwijderd. Het doel is de datakwaliteit te verbeteren zodat analyses, rapportages en beslissingsondersteuning betrouwbaarder zijn. Datareiniging is vaak onderdeel van dataopschoning en maakt deel uit van data governance en ETL-processen.
Typische activiteiten zijn dataprofilering om kenmerken en afwijkingen te identificeren, standaardisatie van formaten (data, telefoonnummer, adressen),
Benaderingen variëren van traditionele regelgebaseerde methoden tot probabilistische en machine learning-gebaseerde technieken. Tools en technologieën die
De belangrijkste baten zijn een hogere nauwkeurigheid en volledigheid van analyses, betere betrouwbaarheid van rapportages en
Kernkwaliteitseigenschappen die verbeterd worden door datareiniging zijn nauwkeurigheid, volledigheid, consistentie, tijdigheid, uniciteit en geldigheid. Goed uitgevoerde