Home

datasettvolumer

Datasettvolumer refererer til størrelsen og omfanget av et datasett, og beskrives normalt i lagringsenheter som byte, kilobyte (KB), megabyte (MB), gigabyte (GB), terabyte (TB), petabyte (PB) eller exabyte (EB). Volumet kan beskrives som total lagringskapasitet eller som antall poster, rader og kolonner i datasettet. Begrepet er relevant i datavitenskap, dataforvaltning og data engineering.

Måling og enheter. Det er vanlig å rapportere datasettvolumer i desimale enheter (GB, TB) eller i binære

Implikasjoner for arkitektur og drift. Større datasettvolumer påvirker krav til lagringsinfrastruktur, som data lakes eller data

Styring og kvalitet. Datasettvolumer må håndteres i livssyklusstyring, med sikkerhet, tilgangskontroll, og regelmessig arkivering, tømming eller

Utvikling og trender. Den forventede veksten i datasettvolumer driver behovet for skalerbare løsninger, komprimering, deduplisering og

enheter
(GiB,
TiB).
Verdien
påvirkes
av
dataformatet
(rå
data
vs.
komprimert
lagring)
og
om
den
oppgis
som
ukomprimert
størrelse
eller
effektive
kapasitet
etter
indeksering
og
komprimering.
warehouses,
og
til
behandlingsevne
og
kostnader.
Arbeidsflyter
må
ofte
implementere
partisjonering,
dataindeksering
og
parallell
prosessering
for
effektiv
analyse,
og
det
kan
være
behov
for
arkivering
eller
nedbrytning
av
eldre
data.
sletting
i
samsvar
med
politiske
og
lovmessige
krav.
Vurdering
av
volumer
er
også
en
del
av
kostnadsstyring
og
kapasitetplanlegging.
effektive
metoder
for
generering
og
oppdatering
av
datasett,
samt
automatisering
av
datastyring
og
kvalitetskontroll.