tekstiaineistojen
Tekstiaineisto (tekstiaineistot) on kokoelma kirjoitettua tai transkriboitua tekstiä, jota käytetään kielitieteellisessä tutkimuksessa, luonnollisen kielen käsittelyssä (NLP) sekä digitaalisessa humanistisessa tutkimuksessa. Aineiston laatu ja kattavuus määritellään usein kattavalla metadatalla sekä huolellisella kuvauksella sen keruusta ja käsittelystä.
Tyypit vaihtelevat: yksikieliset ja monikieliset aineistot, kirjoitettu teksti kuten sanomalehdet ja kaunokirjallisuus, sekä puhuttu teksti kuten
Muoto ja metadatointi vaihtelevat, mutta yleisiä tallennusmuotoja ovat raakateksti, TEI-XML, CoNLL sekä NAF. Metatiedot kuvaavat lähdettä,
Aineiston luominen ja kuratointi sisältää keruun eri lähteistä (esim. kirjastoista, arkistoista, verkkolähteistä), puhdistuksen, normalisoinnin, tokenisoinnin sekä
Käyttötarkoitukset kattavat kielitieteen tutkimuksen, NLP-mallien kouluttamisen sekä digitaalisen humanismin projektit. Suomessa tekstiaineistoja hallinnoidaan muun muassa Kielipankin