Lemmatizace
Lemmatizace je proces zpracování přirozeného jazyka, jehož cílem je převést tvar slova na jeho základní formu, lemma. Lemma je lexikální reprezentant slova, který je uveden v slovníku a zůstává neměnný vůči gramatické flexi. V češtině se slova často mění podle rodu, čísla, pádu, času a způsobu, takže jeden lexém může mít mnoho tvarů. Lemmatizace slouží jako krok v předzpracování textu pro vyhledávání, strojový překlad, označování slov (POS tagging) a další úlohy v zpracování přirozeného jazyka, protože sjednocuje formy na jednotný základ.
Proces obvykle vyžaduje morfologickou analýzu textu a kontextu, často doplněnou o POS tagování, aby bylo možné
Mezi výzvy patří nejednoznačnost – jeden tvar může mít více lemmatů v závislosti na kontextu; zpracování jmen
---