tekstiaineistot
Tekstiaineistot ovat kirjoitettujen tai litteroitujen tekstien kokoelmia, joita käytetään kielentutkimuksessa, kieliteknologiassa sekä opetuksessa. Ne voivat muodostaa korpuksia (korpora), jotka mahdollistavat tilastollisen ja kieliopillisen analyysin suurissakin mittakaavoissa. Tekstiaineistojen tavoitteena on tarjota todenmukainen, edustava ja dokumentoitu kuva kielen rakenteista ja käytöstä.
Aineistot voivat olla monenkaltaisia sekä lähteiltään että muodoiltaan: viralliset julkaisut, sanomalehdet, verkkosivustot, sosiaalisen median tekstit, kirjallinen
Käyttöalueet ovat laajat: kielitiede ja korpuslingvistiikka, sanaston ja kielimallien kehittäminen, syntaksin ja semantiikan analyysi, luonnollisen kielen
Eettiset ja oikeudelliset näkökulmat ovat keskeisiä: henkilötietojen suoja, tekijänoikeudet, anonymisointi sekä käyttöoikeudet ratkaisevat sen, miten aineistoa