Home

lemmatisaatio

Lemmatisaatio on luonnollisen kielen käsittelyn prosessi, jossa sanan taivutusmuodot palautetaan sanakirjassa esiintyvään perusmuotoon, eli lemmaksi. Tämän avulla teksti voidaan käsitellä yhdenmukaisesti riippumatta sanan taivutusmuodosta. Esimerkki: taivutusmuoto talossa palautuu lemmaksi talo.

Lemmatisaatio eroaa stemmingistä: lemmatisaatiossa tavoitellaan todellista sanakirjassa olevaa muotoa, kun taas stemming voi tuottaa epävarmoja tai

Menetelmät voivat olla sanakirjapohjaisia, sääntöpohjaisia tai tilastollisia sekä näiden yhdistelmiä. Suomen kielen rikas taivutus ja agglutinaatio

Käyttökohteita ovat tiedonhaku, tekstin normalisointi, kielentutkimus ja konekäännökset. Lemmatisointia hyödynnetään esimerkiksi hakukoneissa yhdenmukaistamaan haukumuotoja sekä analyysissä,

ei-yleisimpiä
juurimuotoja.
Tämä
tekee
lemmatisaatiosta
yleensä
tarkemman,
mutta
myös
haastavamman
erityisesti
kielillä,
joissa
taivutus
on
monimutkainen.
asettavat
lisähaasteita,
sillä
sama
taivutusmuoto
voi
vastata
useita
lemmoja
ja
oikea
valinta
riippuu
kontekstista
sekä
sanan
osasta.
jossa
sanakirjaformit
ovat
olennaisia.
Työkaluja
lemmatisaatioon
ovat
UD
Finnish,
UDPipe,
Stanza,
spaCy
sekä
TurkuNLP:n
suomalaiset
ratkaisut.
Arvioinnissa
käytetään
usein
tarkkuutta
ja
disambiguointia
mittavia
mittareita
sekä
Universal
Dependencies
-kieliaineistoja.