datarensningar
Datarensningar är den systematiska processen att identifiera och rätta fel i data så att de blir mer korrekta, kompletta och konsekventa. Syftet är att höja tillförlitligheten i analyser, rapportering och beslutsunderlag som bygger på data. Datarensningar omfattar ofta åtgärder mot saknade värden, dupliceringar, felaktiga poster, inkonsekventa format och avvikande värden. I många sammanhang är det en del av dataförberedelse inför analys eller maskininlärning.
Vanliga problem är saknade eller ofullständiga fält, dubbletter, inkonsekventa formater, stavfel och felaktiga koder. Vanliga åtgärder
Processen följer ofta faserna kartläggning av datakvalitet, planering, genomförande av rengöring, validering och dokumentation. Viktiga mått
Vid hantering av personuppgifter krävs skyddsåtgärder som anonymisering eller pseudonymisering för att uppfylla integritetslagstiftning som GDPR.