tekstiluokitus
Tekstiluokitus on luonnollisen kielen käsittelyn (NLP) tehtävä, jossa teksteille annetaan ennalta määriteltyjä luokkia. Luokitukset voivat olla yksiluokkaisia (jokaiselle tekstille yksi pääluokka) tai moniluokkaisia (samalle tekstille voidaan antaa useita luokkia). Tekstiluokitus palvelee tiedon organisointia, sisällön hakua sekä sisällönhallintaa.
Menetelmät: Varhaisissa järjestelmissä käytettiin sääntöihin perustuvaa luokitusta ja avainsanahakuja. Nykyisin yleinen lähestymistapa on koneoppiminen: ominaisuuksien, kuten
Sovellukset: Tekstiluokitusta käytetään esimerkiksi roskapostin suodatukseen, mielipiteen (sentiment) analyysiin, aihepiirin luokitteluun, uutisten kategorisointiin, sisällön moderointiin sekä
Arviointi ja haasteet: Luokitusmenetelmien suorituskyky mittataan testidatalla ja mittareilla kuten tarkkuus, precision, recall ja F1-pisteet sekä