Dataformaateista
Dataformaateista tarkoitetaan tapoja, joilla tieto tallennetaan ja siirretään tietokoneiden välillä. Formaatti määrittelee rakenteen, säännöt ja koodaukset, joiden avulla ohjelmat voivat lukea ja kirjoittaa tiedot. Eri tarkoituksiin on olemassa sekä tekstiä että binääriä käsitteleviä formaatteja. Jotkin muodot ovat itsekertovia eli ne sisältävät sekä datan että rakenteen kuvauksen, kun taas toiset ovat raakadataa ilman ennaltamäärättyä skeemaa.
Tekstipohjaiset formaatit ovat yleisiä tiedonvaihdossa ja inhimillisesti luettavissa: JSON, XML, YAML sekä CSV. JSON on kevyt
Binääriformaatit puolestaan ovat tehokkaita sekä tilankäytön että suorituskyvyn näkökulmasta. Parquet ja Apache ORC ovat sarjallistettuja kolumniformaatteja
Huomioon otettavia seikkoja ovat merkkikoodaukset (esim. UTF-8), endianness, pakkausmenetelmät sekä skeemien tuki ja validointi (esim. JSON