tekstikorpuksissa
Tekstikorpukset ovat digitaalisia kokoelmia kirjoitettua tekstiä, joita käytetään kielitieteellisen tutkimuksen sekä luonnollisen kielen käsittelyn (NLP) sovellusten pohjana. Tekstikorpuksissa tarkoitetaan laajoja, järjestettyjä aineistoja, joista voidaan tilastollisesti tarkastella kielen piirteitä kuten sanastoa, rakennetta ja tyylejä.
Ne voivat koostua yleiskokoelmista kuten sanomalehtiartikkeleista, kirjallisuudesta ja verkkoteksteistä sekä erikoisaloihin keskittyvistä kokoelmista (esimerkiksi laki, lääketiede,
Ennen analyysiä tekstit käsitellään: tokenisointi, normalisointi ja mahdollinen lemmatointi. Osa korpuksista on annotoitu siten, että niissä
Käyttötarkoitukset ovat kielen profiilien kuvaaminen, sanaston kehittäminen ja kieliopillisten ilmiöiden tutkimus sekä NLP-mallien koulutus ja testaus.