stemmingiä
Stemmingiä, eli stemmingointia, on luonnollisen kielen käsittelyn menetelmä, jossa sanojen taivutus- ja johdostunnisteet pyritään poistamaan tai palauttamaan samaan perusmuotoon. Näin eri muodoissa esiintyvät samaan sanaperheeseen kuuluvat sanat voidaan käsitellä yhtenä kokonaisuutena. Stemmointi on keskeinen osa tiedonhakua, tekstin louhintaa ja esikäsittelyä suurissa tekstikokoelmissa, koska se pienentää sanalistojen hajontaa. Toisaalta se voi heikentää sanan tarkkaa merkitystä ja johtaa virheisiin esimerkiksi over-stemmingin tai under-stemmingin seurauksena.
Stemmingiä toteutetaan eri tavoin: sääntöihin perustuvilla stemmerillä (esim. Porter- ja Snowball-tyyppiset stemmerit) sekä kevyemmillä ratkaisuilla, jotka
Suomen kieli asettaa erityisiä haasteita, koska se on agglutinatiivinen ja muodostaa pitkiä taivutus- ja johdannaismotoja. Kielikohtaiset
Käyttökohteita ovat hakukoneet, tekstin analyysi ja tiedonlouhinta, joissa stemming voi parantaa hakutulosten kattavuutta, mutta saattaa alentaa