tekstiaineistoihin
Tekstiaineistoihin viitataan yleisesti kokoelmiin kirjallista ja muuta tekstiä, joita käytetään kielitieteellisessä tutkimuksessa sekä luonnollisen kielen käsittelyyn (NLP). Tekstiaineisto tarkoittaa yksittäistä kokoelmaa tekstejä, kun taas tekstiaineistoihin viitataan usein moninaisen valikoiman kokoelmien kokonaisuutena. Tavoitteena on tarjota todentuva, laajasti analysoitavissa oleva data-aines, jonka avulla voidaan tutkia kieltä käytännön tilanteissa.
Keskeisiä käsitteitä ovat sisällöt, keräämistavat ja muotoilu. Tekstiaineistot voivat olla maankielisiä tai monikielisiä, suuria tai pienempiä,
Käyttö ja prosessointi etenevät usein keräämisestä, puhdistuksesta ja standardoinnista annotaatioon sekä validointiin. Keräystä ohjaavat oikeudet, tekijänoikeudet
Käytännön sovelluksia ovat kieliesimerkkien hakeminen ja kontekstianalyysi, tilastolliset tutkimukset, sekä luonnollisen kielen järjestelmien koulutus ja arviointi.