gegevensset
Een gegevensset, ook wel gegevensverzameling genoemd, is een georganiseerde verzameling gegevens die betrekking heeft op een bepaald onderwerp of onderzoeksdoel. De meest voorkomende vorm is tabular: elke rij vertegenwoordigt een waarneming en elke kolom een variabele. Gegevens in een set kunnen numeriek, categorisch, tekstueel of tijdsgebonden zijn. Naast tabellen bestaan er ook niet-gestructureerde of semigestructureerde gegevenssets, bijvoorbeeld tekstbestanden, afbeeldingen of netwerkdata.
Een gegevensset heeft meestal ook metadata: beschrijving van de inhoud, de herkomst, de meetinstrumenten, het tijdsbestek
Veelgebruikte formaten voor opslag en uitwisseling zijn CSV, JSON, XML, Parquet en HDF5. Datasets kunnen gestructureerd
Toepassingen liggen in statistiek, data-analyse, wetenschappelijk onderzoek en training van machine learning-modellen. Een goed beheerde gegevensset
Bij persoonsgegevens gelden privacyregels zoals de AVG/GDPR; privacy-by-design, anonimisering en beperking van re-identificatierisico's zijn gangbaar. Datasets