duplikatfjernelse

Duplikatfjernelse, eller deduplication, er prosessen med å identifisere og fjerne dupliserte dataoppføringer for å redusere lagringsbruk og forbedre datakvalitet. Prosessen brukes på filer, databaser, sikkerhetskopier og samlinger av poster der identiske elementer kan forekomme flere ganger.

Ulike typer dedup på ulike nivåer inkluderer eksakte duplikater og nærduplikater. Eksakte duplikater tilsvarer identiske data

Metoder varierer etter kontekst. For filer kan dedup involvere blokkdeling og innholdsfestede chunking (for eksempel Rabin-fingeravtrykk)

Anvendelser inkluderer lagringseffektivitet i sikkerhetskopier og arkiv, forbedret datakvalitet i kundedata og registre, samt forbedret søk

Utfordringer inkluderer risiko for feilaktig fjerning og datatap ved overdreven dedup, ytelsesbelastning ved store datasett eller

Ved implementering bør organisasjoner vurdere policyer for datainnsamling og lagring, regler for generering av duplikatposter, og

i

informasjonsforvaltningssystemer

e-postklienter.

sanntidsanalyse,

dedup-funksjonalitet

i

datavarehusløsninger.

dedup-implementering