Lemmatiseerimine
Lemmatiseerimine on loomuliku keele töötlemise (NLP) tehnika, mille eesmärk on redutseerida sõnad nende algvormi ehk lemmaks. See erineb tüveühendamisest (stemming), mis sageli jätab sõnadest ilma nende lõpud, kuid ei pruugi alati moodustada keeleliselt korrektset sõna. Lemmatiseerimine kasutab sõnavara ja morfoloogilist analüüsi, et tagastada sõna õige lemm. Näiteks sõnad "jooksen", "jooksed", "jooksid" ja "jooksutaks" lemmatiseeritaks sõnaks "jooksma". Sama kehtib nimisõnade kohta, kus mitmuse või omastava käände vormid redutseeritakse nimetava käände ainsuse vormi. Selle protsessi peamine eesmärk on vähendada tekstis esinevate sõnade arvu ja muuta need üksteisega võrreldavaks, mis on oluline mitmete NLP-ülesannete, nagu teksti analüüs, otsingumootorid ja masintõlge, jaoks. Lemmatiseerimine nõuab sageli keele-spetsiifilisi ressursse, nagu sõnaraamatud ja grammatikareeglid.