Dataduplikation
Dataduplikation er en tilstand, hvor identiske data forekommer to eller flere steder i et informationssystem eller på tværs af systemer. Duplikation kan være utilsigtet som følge af fejl i datafangst, synkronisering og integration, eller den kan være bevidst i tilfælde af caching, replikering eller datamigrering. Uanset årsagen kan duplikation medføre inkonsistente data og øgede vedligeholdelsesomkostninger.
Årsager inkluderer manglende normalisering i databaser, manglende entydige identifikatorer, fejl under integration af flere dataregistre, manuelle
Konsekvenserne kan være betydelige: spild af lagerkapacitet, forringet datakvalitet og unøjagtige rapporter, hvilket kan føre til
Forebyggelse og håndtering omfatter databasenormalisering og anvendelse af entydige primære nøgler samt referentielle integritetsbegrænsninger, dedupliceringsrutiner i
Relaterede begreber inkluderer data cleansing, data governance, MDM, ETL og change data capture.