Home

Dataduplikation

Dataduplikation er en tilstand, hvor identiske data forekommer to eller flere steder i et informationssystem eller på tværs af systemer. Duplikation kan være utilsigtet som følge af fejl i datafangst, synkronisering og integration, eller den kan være bevidst i tilfælde af caching, replikering eller datamigrering. Uanset årsagen kan duplikation medføre inkonsistente data og øgede vedligeholdelsesomkostninger.

Årsager inkluderer manglende normalisering i databaser, manglende entydige identifikatorer, fejl under integration af flere dataregistre, manuelle

Konsekvenserne kan være betydelige: spild af lagerkapacitet, forringet datakvalitet og unøjagtige rapporter, hvilket kan føre til

Forebyggelse og håndtering omfatter databasenormalisering og anvendelse af entydige primære nøgler samt referentielle integritetsbegrænsninger, dedupliceringsrutiner i

Relaterede begreber inkluderer data cleansing, data governance, MDM, ETL og change data capture.

indtastninger
og
migreringsprojekter.
Når
systemer
synkroniseres,
kan
identiske
poster
oprettes
flere
gange,
og
forskellige
afledte
felter
kan
divergere.
dårlige
beslutninger.
Øget
vedligeholdelse
og
højere
risiko
for
update-
og
referentiel
integritetsfejl
følger
også.
ETL-processer,
data
governance
og
master
data
management.
Identitetsløsninger
og
matchning
(deterministisk
og
probabilistisk)
kan
bruges
til
at
identificere
og
fusionere
duplikater
og
skabe
en
eneste
kilde
til
sandheden
(golden
record).