Tekstiresurssien
Tekstiresurssien käsite viittaa tekstipohjaisten kokoelmien ja tekstidatan kokonaisuuksiin, joita voidaan lukea, tutkia ja käsitellä sekä ihmis- että konekäyttötarkoituksiin. Tekstiresurssit voivat olla sekä painettuja että digitaalisia, julkisia tai rajoitetusti käytettävissä olevia, sekä tekijänoikeudellisesti suojattuja että vapaasti käytettäviä. Ne kattavat kirjallisuuden, tieteelliset artikkelit, sanomalehtiartikkeleita, verkkosivustoja, puhetta ja transkriptioita sekä korpuksia ja muuta merkittyä aineistoa.
Käyttötarkoitukset ovat laaja-alaisia: kielen ja kirjallisuuden tutkimus, opetuksen aineistot, kääntäminen sekä luonnollisen kielen käsittely (NLP) ja
Teknisiä muotoja ja metatietoja ovat puhdas teksti, TEI-merkintöjä hyödyntävä XML, JSON- tai CSV-tiedostot sekä monimutkaisempia kokoelmapaketteja.
Oikeudelliset ja saavutettavuuskysymykset ovat tärkeässä asemassa: käytön ehdoissa painottuvat lisenssit, avoin pääsy ja tekijänoikeudet sekä mahdolliset
Haasteita ovat laadun yhtenäistäminen, kattavuuden varmistaminen, monikielisyyden hallinta sekä metadata- ja arkistointikäytäntöjen kehittäminen. Datan kasvun myötä