Datamängden
Datamängden är en samling data som används för analys, modellering och kommunikation av insikter. Den består oftast av poster (observationer) och variabler (attribut). Varje post representerar ett exempel och varje variabel beskriver en egenskap hos det exemplet. Datamängder kan vara strukturerade, ostrukturerade eller semi-strukturerade och varierar i storlek och kompleksitet.
Strukturerade datamängder är organiserade i tabeller med rader och kolumner och ofta lättare att analysera med
Användningen av en datamängd beror på syftet: beskrivande analys, modellering, maskininlärning eller dataregistrering. Inom maskininlärning delas
Metainformation om datamängden – vem som samlat in den, hur den samlades in, licensiering och versionering – är