textnormalisering
Textnormalisering er prosessen med å gjøre tekst til en standardisert form for å lette automatisk behandling og analyse. Innenfor områder som informasjonsinnhenting, søk og naturlig språkbehandling, har normalisering som mål å redusere variasjon som oppstår fra forskjeller i skrivemåte, tegnsett og formatering. En vellykket normalisering prøver å bevare mening og informasjon samtidig som unødvendig variasjon fjernes.
Vanlige tiltak inkluderer å gjøre tekst til lowercase (lowercasing), fjerning av diakritiske tegn og Unicode-normalisering (for
Anvendelser inkluderer søkemotorer og informasjonssøking, tekstanalyse, sentimentanalyse og flerspråklig korpusbehandling. Ved å redusere variasjon blir gjenfinning
Utfordringer inkluderer språklig mangfold, rik morfologi og kontekstforankring. Overdrevet normalisering kan fjerne meningsbærende informasjon, som navn,