Esiprosessointi
Esiprosessointi on esikäsittelyvaihe, jota käytetään ennen varsinaista analyysia tai mallintamista. Sen tavoitteena on parantaa aineiston laatua sekä muokata data sopivaksi seuraaville vaiheille, kuten tilastolliselle analyysille tai koneoppimiselle.
Tyypillisiä toimenpiteitä ovat puuttuvien arvojen käsittely, virheellisen tai epäluotettavan datan korjaaminen sekä poikkeavien arvojen tunnistus ja
Esiprosessointi on usein osa data science -putkea. Työkalut kuten scikit-learnin pipeline, Pandas ja NumPy auttavat toistettavuudessa
Esiprosessoinnin tarkoitus on parantaa mallien suorituskykyä sekä yleistettävyyttä ja vähentää melua datassa. Toteutustavat vaihtelevat datan tyypin
Sovelluskohteita ovat muun muassa terveydenhuolto, rahoitus, teollinen diagnostiikka sekä luonnollisen kielen käsittely ja kuvien/signaalien esiprosessointi.