Home

datasätt

Datasätt är en samling data som används för analys, forskning eller modellering. Vanligtvis organiseras de i strukturerade former där varje rad motsvarar en observation och varje kolumn en variabel. Datasätt kan också vara ostrukturerade eller semistrukturerade, exempelvis textfiler, bilder eller tidsserier. De flesta datasätt åtföljs av metadata som beskriver innehållet, variablernas namn, datatyper och enheter.

Alla datasätt genomgår en livscykel som omfattar insamling, rensning, förbehandling och dokumentation. Insamlingen avgör urval, metod

Kvalitet bedöms vanligtvis utifrån fullständighet, noggrannhet, konsekvens, aktualitet och representativitet. Etiska och juridiska frågor är centrala,

Användning och tillgång: Datasätt används för statistisk analys, maskininlärning, benchmarking och forskning. De tillhandahålls ofta av

och
eventuell
bias.
Rensning
och
förbehandling
hanterar
saknade
värden,
fel
och
inkonsekvenser
innan
data
används
i
analys
eller
träning
av
modeller.
God
datasättshantering
inkluderar
versionering,
ursprungshistorik
och
tydlig
licens.
särskilt
när
personuppgifter
förekommer:
anonymisering,
dataskydd
och
efterlevnad
av
lagar
som
GDPR.
Licensvillkor
bestämmer
hur
datasättet
får
användas,
delas
och
modifieras.
universitet,
myndigheter
eller
privata
företag
och
lagras
i
databaser
eller
filsystem,
ibland
i
offentliga
arkiv
eller
öppna
data-portaler.