lemmatisering
Lemmatisering is een techniekn in de verwerking van natuurlijke taal die de verschillende vormen van een woord terugbrengt naar de basisvorm, het lemma. Het lemma is doorgaans de vorm die in woordenboeken wordt gebruikt en fungeert als de canonieke vorm van het woord. Door woorden te normaliseren naar hun lemma kunnen tekstdatasets consistenter worden geanalyseerd en vergeleken.
Het proces berust op taalkundige analyse: het combineert lexicons (woordenboeken) met morfologische regels en vaak ook
Lemmatisering verschilt van stemming. Stemming reduceert woorden tot een basale vorm of stam die soms geen
Toepassingen omvatten informatieopvraging en zoekmachines, tekstmining en machinevertaling. Lemmatisering verhoogt de vindbaarheid van varianten van hetzelfde