Datamuunnokset
Datamuunnokset tarkoittavat prosesseja, joissa raaka-data muokataan ja järjestetään käyttötarkoitukseen sopivaksi. Muunnokset voivat sisältää suodatusta, puhdistusta, normalisointia, aggregointia, koodaukseen tai formaatteihin muuntamista sekä tietojen yhdistämistä eri lähteistä. Ne ovat keskeinen osa tietoputkia (ETL/ELT) ja datan esikäsittelyä analytiikkaa ja koneoppimista varten.
Tyypillisiä muunnoksia ovat arvojen standardisointi (esim. yksiköt, aikavyöhykkeet), puuttuvien arvojen käsittely, kategoristen muuttujien one-hot- tai label-enkoodaus,
Työkaluja datamuunnoksiin ovat SQL-kyselyt, skriptikielet (Python/pandas), jakelut kuten Apache Spark ja Flink sekä integraatioalustat kuten NiFi
Haasteita ovat datan laatu, skaalautuvuus, suorituskyky, skeeman muutokset ja tietosuoja. Hyviä käytäntöjä ovat toistettavuus, selkeä muunnoslogiikka,