adathalmazoknál
Adathalmazoknál olyan adatkészleteket értünk, amelyek megfigyeléseket és jellemzőket foglalnak magukba, és amelyeket statisztikai elemzésekre, adatmodellezésre vagy gépi tanulásra használnak. Egy adathalmaz általában strukturált formában van megjelenítve: sorokban az egyes megfigyelések, oszlopokban a jellemzők vagy változók. Bizonyos adathalmazok időbeli vagy térbeli kontextust is tartalmazhatnak, például idősort vagy helyspecifikus adatokat.
Két fő típusa a strukturált és strukturálatlan adathalmazok; a strukturált adathalmazban egyértelműen definiált oszlopok és adattípusok
Az adathalmazokat gyakran felosztják a gépi tanulásban: tanító (training), validációs (validation) és teszt (test) készletekre. Szupervised
Formátumok és tárolás vonatkozásában az adathalmazokat gyakran CSV, JSON, Parquet vagy relációs adatbázisokban tárolják, kísérő metaadatai