Home

lematização

Lematização é o processo de reduzir palavras às suas formas canônicas, ou lemmas. Em linguística e processamento de linguagem natural (PLN), a lematização mapeia tokens flexionados ou derivados para a forma de dicionário correspondente, normalizando o vocabulário para análise, indexação e comparação de conteúdos. Ao contrário do stemming, que corta afixos indiscriminadamente, a lematização usa conhecimento linguístico — incluindo a classe gramatical — para retornar o lema correto.

Os métodos variam entre dicionários com regras morfológicas e abordagens estatísticas ou neurais que aprendem a

Exemplos: amigos → amigo; casas → casa; correu → correr; falando → falar.

As aplicações incluem melhoria de recuperação de informação, pré-processamento para PLN, mineração de textos, tradução automática

Desafios envolvem polissemia, ambiguidade lexical, irregularidades, nomes próprios e variações entre dialetos, além de depender de

Ver também: stemming, análise morfológica, POS tagging, processamento de linguagem natural.

mapear
formas
para
lemmas
a
partir
de
dados
anotados.
Em
idiomas
com
morfologia
rica,
como
o
português,
a
desambiguação
de
lema
depende
da
classe
gramatical
(substantivo,
verbo,
etc.).
e
análise
de
sentimentos.
Lematização
reduz
variantes
de
uma
palavra
a
um
único
lema,
o
que
facilita
a
comparação
de
conteúdos
com
diferentes
flexões.
recursos
morfológicos
e
de
dados
de
treinamento
de
qualidade.
A
avaliação
costuma
usar
corpora
anotados
e
métricas
como
precisão,
recall
e
F1.