Home

dataduplicering

Dataduplicering is het voorkomen of ontstaan van meerdere kopieën van dezelfde gegevens binnen een informatiesysteem of tussen systemen. Het kan bewust gebeuren, bijvoorbeeld bij redundante backups, denormaliseerde datamodellen in datawarehousing of wanneer dezelfde klant- of productinformatie in meerdere applicaties wordt opgeslagen. Het kan ook onbedoeld ontstaan door integratieverschillen, foutieve synchronisatie, of ETL-processen die niet eenduidig reconciliëren.

De aanwezigheid van data duplicaten heeft verschillende gevolgen. Opslagkosten nemen toe; maar ook wordt de data

Vormen van duplicatie omvatten exacte duplicaten (identieke rijen of bestanden), evenals near-duplicates waarbij vergelijkbare maar niet

Beheer en mitigatie vereist doorgaans een combinatie van normalisatie, master data management en governance. Technieken omvatten

In business intelligence en datawarehouse-omgevingen wordt duplicatie soms bewust geaccepteerd of geprefereerd voor prestatie- en analysetoepassingen,

governance
complexer
en
kunnen
inconsistente
of
verouderde
informatie
leiden
tot
foutieve
besluiten.
Reconciliatie
en
gegevenskwaliteit
worden
zwaarder,
aangezien
meerdere
kopieën
moeten
worden
vergeleken
en
gesynchroniseerd.
identieke
records
bestaan.
Duplicatie
kan
voorkomen
in
databases,
bestanden,
cloud-
en
on-premise
omgevingen,
en
tijdens
data-migraties
en
integraties.
canonical
data
models,
referentiële
integriteit,
en
data
quality
checks.
Deduplicatietools
en
opslaggebaseerde
deduplicatie
kunnen
opslag
efficiëntie
verhogen.
Daarnaast
dragen
duidelijke
data
lineage
en
metadata
management
bij
aan
begrip
waar
en
waarom
duplicatie
ontstaat.
maar
het
blijft
belangrijk
om
duplicatieniveaus
te
monitoren
en
te
beheersen
om
inconsistenties
te
voorkomen.