datamængder
Datamængder er organiserede samlinger af data, der bruges til analyse og beslutningsstøtte. En datamængde kan være struktureret, semi-struktureret eller ustruktureret og består ofte af observationer og variabler eller af mere komplekse objekter som dokumenter og medier.
Strukturerede datamængder har et fast skema og forekommer som tabeller med rækker (enheder) og kolonner (variabler).
Indsamling kommer fra sensorer, målinger, spørgeskemaer, logfiler og offentlige databaser samt crowdsourcing. Kvalitet vurderes ud fra
Forberedelse omfatter rensning, håndtering af manglende værdier, normalisering og deduplering. Metadata og dokumentation (datakatalog, variabelnavne, enheder,
Privatliv og etik er centrale: anonymisering eller pseudonymisering, overholdelse af persondataregler og risikovurdering.
Anvendelser spænder fra forskning og maskinlæring til beslutningsstøtte og evaluering. Adgang og vilkår reguleres af licenser;
Udfordringer omfatter bias og repræsentativitet, datadrift og sikkerhed samt behov for god data governance og korrekte