datamuotoja
Datamuotoja tarkoitetaan tapoja, joilla data esitetään, tallennetaan ja siirretään ohjelmistojen välillä. Ne määrittelevät, kuinka merkit ja rakenteet ovat järjestettyjä sekä millaisia skeemoja tai kuvailevia tietoja dataan sisältyy. Datamuotoja voidaan jaotella tekstimuotoisiin ja binäärimuotoisiin sekä rakenteellisiin, semi-structured ja unstructured -datoihin. Tekstimuodot ovat ihmisluettavia ja soveltuvat nopeaan tarkasteluun, kun taas binäärimuodot ovat usein pienempiä ja nopeampia käsitellä suuria määriä dataa.
Yleisimmät tekstimuodot ovat JSON, XML, YAML ja CSV. JSON on kevyt, avain-arvo-pareihin ja rakenteisiin perustuva formaatti,
Binäärimuotoja ovat esimerkiksi Parquet, Avro, Protobuf ja ORC. Ne tukevat skeemia, tarrautuvat tehokkaaseen tallennukseen ja mahdollistavat
Skeemat ja validoima ovat tärkeitä erityisesti rakenteellisissa formaateissa. JSON Schema, XML Schema sekä Protobuf- ja Avro-skeemat
Datamuotojen valinta vaikuttaa tallennus-, siirto- ja käsittelykustannuksiin sekä kapasiteettiin. Valintaan vaikuttavat ihmisluettavuus, suorituskyky, tilankäyttö sekä olemassa