Home

datauppsättning

En datauppsättning är en samling data som samlats in eller genererats för ett specifikt syfte. Den består oftast av poster (observationer) och variabler (attribut), och följer en struktur som gör det möjligt att analysera data systematiskt. Metainformation beskriver innehållet, källan, insamlingsmetoder och kvalitet.

Innehållet kan vara numeriskt, kategoriskt, text eller tidsserier, ibland geodata. Vanliga format inkluderar tabulära filer som

Livscykel: insamling, rengöring, normalisering, annotering, validering, dokumentation och versionering. Kvalitetsaspekter inkluderar fullständighet, noggrannhet, konsekvens och aktualitet.

Tillgång och licensiering: data kan vara offentliga eller licensierade enligt exempelvis Creative Commons. Integritets- och eticitänkande

Användning och standarder: datauppsättningar används inom forskning, maskininlärning och beslutstöd. Metadata- och klassificeringsstandarder som Dublin Core

CSV
eller
Excel,
men
även
JSON,
Parquet
eller
XML.
Datauppsättningar
lagras
vanligen
i
databaser,
data
lakes
eller
i
forskningsrepositorier.
Provenans
beskriver
ursprung
och
bearbetningar.
är
viktigt,
särskilt
för
personuppgifter
under
GDPR;
ofta
används
anonymisering
eller
differential
privacy.
eller
DCAT
underlättar
katalogisering
och
återanvändning.
Vissa
uppsättningar
tilldelas
DOI
eller
andra
kvarvarande
identiteter.