Home

datamængder

Datamængder er organiserede samlinger af data, der bruges til analyse og beslutningsstøtte. En datamængde kan være struktureret, semi-struktureret eller ustruktureret og består ofte af observationer og variabler eller af mere komplekse objekter som dokumenter og medier.

Strukturerede datamængder har et fast skema og forekommer som tabeller med rækker (enheder) og kolonner (variabler).

Indsamling kommer fra sensorer, målinger, spørgeskemaer, logfiler og offentlige databaser samt crowdsourcing. Kvalitet vurderes ud fra

Forberedelse omfatter rensning, håndtering af manglende værdier, normalisering og deduplering. Metadata og dokumentation (datakatalog, variabelnavne, enheder,

Privatliv og etik er centrale: anonymisering eller pseudonymisering, overholdelse af persondataregler og risikovurdering.

Anvendelser spænder fra forskning og maskinlæring til beslutningsstøtte og evaluering. Adgang og vilkår reguleres af licenser;

Udfordringer omfatter bias og repræsentativitet, datadrift og sikkerhed samt behov for god data governance og korrekte

Semi-strukturerede
som
JSON
eller
XML
har
en
overordnet
orden
uden
faste
kolonneopdelinger.
Ustrukturerede
datamængder
omfatter
tekst,
billeder,
lyd
og
video.
fuldstændighed,
nøjagtighed,
konsistens
og
aktualitet
samt
sporbarhed
og
oprindelse.
oprindelse
og
versionering)
er
vigtige
for
genbrug.
offentlige
datamængder
stilles
ofte
til
rådighed
under
open
data-licenser
som
CC0
eller
CC
BY.
versioner.