Dataduplikation

Dataduplikation er en tilstand, hvor identiske data forekommer to eller flere steder i et informationssystem eller på tværs af systemer. Duplikation kan være utilsigtet som følge af fejl i datafangst, synkronisering og integration, eller den kan være bevidst i tilfælde af caching, replikering eller datamigrering. Uanset årsagen kan duplikation medføre inkonsistente data og øgede vedligeholdelsesomkostninger.

Årsager inkluderer manglende normalisering i databaser, manglende entydige identifikatorer, fejl under integration af flere dataregistre, manuelle

Konsekvenserne kan være betydelige: spild af lagerkapacitet, forringet datakvalitet og unøjagtige rapporter, hvilket kan føre til

Forebyggelse og håndtering omfatter databasenormalisering og anvendelse af entydige primære nøgler samt referentielle integritetsbegrænsninger, dedupliceringsrutiner i

Relaterede begreber inkluderer data cleansing, data governance, MDM, ETL og change data capture.

migreringsprojekter.

vedligeholdelse

integritetsfejl

Identitetsløsninger

(deterministisk

probabilistisk)