lematização
Lematização é o processo de reduzir palavras às suas formas canônicas, ou lemmas. Em linguística e processamento de linguagem natural (PLN), a lematização mapeia tokens flexionados ou derivados para a forma de dicionário correspondente, normalizando o vocabulário para análise, indexação e comparação de conteúdos. Ao contrário do stemming, que corta afixos indiscriminadamente, a lematização usa conhecimento linguístico — incluindo a classe gramatical — para retornar o lema correto.
Os métodos variam entre dicionários com regras morfológicas e abordagens estatísticas ou neurais que aprendem a
Exemplos: amigos → amigo; casas → casa; correu → correr; falando → falar.
As aplicações incluem melhoria de recuperação de informação, pré-processamento para PLN, mineração de textos, tradução automática
Desafios envolvem polissemia, ambiguidade lexical, irregularidades, nomes próprios e variações entre dialetos, além de depender de
Ver também: stemming, análise morfológica, POS tagging, processamento de linguagem natural.