Home

duplikatfjernelse

Duplikatfjernelse, eller deduplication, er prosessen med å identifisere og fjerne dupliserte dataoppføringer for å redusere lagringsbruk og forbedre datakvalitet. Prosessen brukes på filer, databaser, sikkerhetskopier og samlinger av poster der identiske elementer kan forekomme flere ganger.

Ulike typer dedup på ulike nivåer inkluderer eksakte duplikater og nærduplikater. Eksakte duplikater tilsvarer identiske data

Metoder varierer etter kontekst. For filer kan dedup involvere blokkdeling og innholdsfestede chunking (for eksempel Rabin-fingeravtrykk)

Anvendelser inkluderer lagringseffektivitet i sikkerhetskopier og arkiv, forbedret datakvalitet i kundedata og registre, samt forbedret søk

Utfordringer inkluderer risiko for feilaktig fjerning og datatap ved overdreven dedup, ytelsesbelastning ved store datasett eller

Ved implementering bør organisasjoner vurdere policyer for datainnsamling og lagring, regler for generering av duplikatposter, og

og
kan
påvises
med
kryptografiske
hash-verdier
eller
checksums.
Nærduplikater
omfatter
data
som
er
like,
og
kan
oppdages
gjennom
fuzzy
matching
eller
andre
metoder
som
vurderer
likhet
mellom
poster.
med
lagring
av
bare
en
unik
blokk
og
referanser
til
resten.
For
databaser
identifiseres
dupliserte
rader
ofte
via
unike
nøkler,
eller
ved
hjelp
av
dedup-skript
som
grupperer
og
velger
en
forekomst
basert
på
regler,
eller
gjennom
avansert
records
linkage
for
å
slå
sammen
like
poster
(identity
resolution).
og
indeksering
i
informasjonsforvaltningssystemer
og
e-postklienter.
sanntidsanalyse,
personvern
og
datasikkerhet,
samt
håndtering
av
dynamiske
data
og
versjonering.
behov
for
data
governance
og
sporbarhet.
Mange
systemer
tilbyr
innebygd
dedup-funksjonalitet
i
lagrings-
og
datavarehusløsninger.
En
vellykket
dedup-implementering
balanserer
reduksjon
av
unødvendig
lagring
mot
bevaring
av
nødvendig
historikk
og
kontekst.