Datasettet
Datasettet, eller datasettet på norsk, er en samling data som er organisert for analyse og beslutningstaking. Det består vanligvis av poster eller forekomster som representerer enheter i en studie, og av variabler som beskriver kjennetegn ved disse enhetene. Datasett kan være strukturelle, ofte i tabellform med rader og kolonner, eller ustrukturerte, som bilder, tekst eller lyd.
Innholdet kan være tall, tekst, kategoriske verdier, tidsserier eller multimediainnhold. Filformat og metadata bestemmer hvordan dataene
Opprettelse og forberedelse av datasettet innebærer innsamling, rensing, duplisering (deduplicering), normalisering og ofte annotering eller merking
Datasett brukes bredt, blant annet i vitenskapelig forskning, statistisk analyse, utvikling av maskinlæringsmodeller og benchmarking. Lisensiering