tekstinprosessointia
Tekstinprosessointi on tietotekniikan ala, joka käsittelee tekstimuotoisen aineiston muuntamista, analysointia ja hyödyntämistä tietokoneen avulla. Sen piiriin kuuluvat sekä perus-esikäsittelyt että korkeamman tason luonnollisen kielen käsittelyn (NLP) tehtävät.
Keskeisiä tehtäviä ovat esikäsittely, kuten tokenisointi (tekstin jakaminen sanoiksi tai merkeiksi) ja normalisointi (esimerkiksi pieniksi kirjaimiksi
Käytettyjä työkaluja ja tekniikoita ovat ohjelmointikielet kuten Python sekä kirjastoja NLTK, spaCy ja Stanford NLP. Suuret
Haasteita ovat muun muassa suomen kielen monimutkainen morfologia, sanaston variaatio, kirjoitus- ja merkistöerot sekä monikieliset aineistot.
Sovelluksia ovat hakukoneet ja tiedonhaku, tekstien ryhmittely ja luokittelu, tiedonlouhinta, käännöstekniikat sekä vuorovaikutteiset ohjausjärjestelmät kuten chatbotit.
Tekstinprosessointi voidaan nähdä osana suurempaa luonnollisen kielen käsittelyn kokonaisuutta, jossa yhdistyvät tilastolliset ja sääntöihin perustuvat menetelmät.