Datapuhdistus
Datapuhdistus on prosessi, jossa havainnoidaan ja korjataan datassa esiintyviä virheitä, puutteita ja epäjohdonmukaisuuksia. Tavoitteena on parantaa datan laatua, luotettavuutta ja soveltuvuutta analysointiin sekä päätöksentekoon.
Datapuhdistus kuuluu osana laajempaa datan valmistelua ja laadunvarmistusta. Siihen kuuluu virheellisen tiedon tunnistaminen, puutteiden korjaaminen tai
Yleisimpiä ongelmia ovat kadonneet arvot, toistuvat rivit, epäyhteensopivat tai virheelliset tunnisteet, virheellinen datatyyppi, kirjoitusvirheet sekä erilaiset
Menetelmät jakautuvat sääntöihin pohjautuvaan validointiin, puuttuvien arvojen täyttöön (imputation), duplikaattien poistamiseen tai yhdistämiseen, arvojen standardisointiin sekä
Työn kulku on usein iteratiivinen: arviointi, suunnittelu, puhdistus, validointi ja dokumentointi. Prosessin aikana tallennetaan muutoshistoria ja
Käytettyjä työkaluja ovat ohjelmointikielet kuten SQL sekä Python (esim. pandas) ja R, sekä erilliset tietojen puhdistustyökalut
Datapuhdistuksen hyödyt ilmenevät paremmassa analyysien tarkkuudessa, eheydessä ja johdonmukaisuudessa sekä luotettavammassa päätöksenteossa, vaikka prosessissa on tärkeää