Preprosessering
Preprosessering er en samlebetegnelse for teknikker og prosesser som forbereder rådata for videre analyse og modellbygging. Formålet er å forbedre datakvalitet, konsistens og representasjon, redusere støy og bias, samt gjøre dataene mer egnet for algoritmer. Preprosessering skjer på tvers av fagområder og kan være avhengig av datatype og mål.
Vanlige trinn inkluderer datarensing (fjerne duplikater, rette feil, avvik), håndtering av manglende verdier gjennom imputasjon eller
I forskjellige områder omfatter preprosessering tekst, som tokenisering, stemming/lemmatisering og fjerning av stopwords; bilde- og lyddata