Home

Datasettet

Datasettet, eller datasettet på norsk, er en samling data som er organisert for analyse og beslutningstaking. Det består vanligvis av poster eller forekomster som representerer enheter i en studie, og av variabler som beskriver kjennetegn ved disse enhetene. Datasett kan være strukturelle, ofte i tabellform med rader og kolonner, eller ustrukturerte, som bilder, tekst eller lyd.

Innholdet kan være tall, tekst, kategoriske verdier, tidsserier eller multimediainnhold. Filformat og metadata bestemmer hvordan dataene

Opprettelse og forberedelse av datasettet innebærer innsamling, rensing, duplisering (deduplicering), normalisering og ofte annotering eller merking

Datasett brukes bredt, blant annet i vitenskapelig forskning, statistisk analyse, utvikling av maskinlæringsmodeller og benchmarking. Lisensiering

lagres
og
tolkes.
Vanlige
formater
inkluderer
CSV,
JSON,
Parquet
og
HDF5,
og
data
lagres
i
filer,
databaser
eller
datasettregistre.
for
tilrettelegging
av
maskinlæring
eller
evaluering.
Kvalitetsegenskaper
som
representativitet,
fullstendighet,
nøyaktighet
og
konsistens
påvirker
påliteligheten.
Etiske
og
juridiske
hensyn,
inkludert
personvern
og
anonymisering,
bør
vurderes
ved
innsamling
og
publisering.
varierer
fra
åpne
datasett
med
åpne
lisenser
til
proprietære
samlinger,
noe
som
påvirker
hvordan
dataene
kan
deles
og
gjenbrukes.
Livssyklusen
for
et
datasett
omfatter
vedlikehold,
oppdateringer,
versjonering
og
sporbarhet
til
opprinnelse
og
endringer.