datauppsättning
En datauppsättning är en samling data som samlats in eller genererats för ett specifikt syfte. Den består oftast av poster (observationer) och variabler (attribut), och följer en struktur som gör det möjligt att analysera data systematiskt. Metainformation beskriver innehållet, källan, insamlingsmetoder och kvalitet.
Innehållet kan vara numeriskt, kategoriskt, text eller tidsserier, ibland geodata. Vanliga format inkluderar tabulära filer som
Livscykel: insamling, rengöring, normalisering, annotering, validering, dokumentation och versionering. Kvalitetsaspekter inkluderar fullständighet, noggrannhet, konsekvens och aktualitet.
Tillgång och licensiering: data kan vara offentliga eller licensierade enligt exempelvis Creative Commons. Integritets- och eticitänkande
Användning och standarder: datauppsättningar används inom forskning, maskininlärning och beslutstöd. Metadata- och klassificeringsstandarder som Dublin Core