stemmingissä
Stemmingissä tarkoitetaan tekstin esikäsittelyn teknistä menetelmää, jossa sanojen taivutusmuotoja tai johdoksia pyritään palauttamaan samaan, lyhyeen perusmuotoon. Tavoitteena on vähentää muotoilun aiheuttamaa variaatiota siten, että sanoilla, joilla on sama tai lähellä samaa sisältöä, voidaan käsitellä yhtenä yksikkönä. Stemming on yleinen osa hakualgoritmeja, tiedon louhintaa ja tekstianalyysiä, jossa suuret määrät tekstiä jäsennellään tehokkaammin.
Suomen kielessä stemmingiin liittyy erityispiirteitä: suomi on taivutus- ja agglutinatiivinen kieli, jossa sanoihin lisätään lukuisia pää-
Algoritmit vaihtelevat: jotkin stemmerit ovat sääntöpohjaisia ja perustuvat rajattuun sanastotietoon, toiset ovat tilastollisia tai hybridimetodeja. Snowball-projektin
Käyttökohteita ovat hakukoneet, tekstin luokittelu, tiedon louhinta sekä monikieliset sovellukset, joissa hallittava sanamuotojen variaatio parantaa osuvuutta.
Rajoitukset ja haasteet liittyvät yli- sekä ali-stemmingiin sekä kontekstin huomioimisen puutteeseen. Siksi stemmingiä käytetään usein yhdessä