Tekstikogumid
Tekstikogumid (korpusid) on suurte tekstide kogumid, mis kogutakse ja hoitakse selleks, et uurida keelt ja arendada keeletehnoloogiat. Iga kogum sisaldab tekste ning sageli ka metaandmeid, nagu keel, allikas, kuupäev, tekstiliik ja litsents. Korpused võivad olla ükskeelsed (sisaldavad tekste ainult ühes keeles) või mitmekeelsed (paralleelsed korpused, kus sama teksti on esindatud erinevates keeltes).
Struktuur ja märgendus: paljud korpused on märgendatud, pakkudes täiendavat teavet nagu sõnelemendid (lemma ja osa kõne
Koostamine: korpuse loomine hõlmab andmete kogumist erinevatest allikatest, nende puhastamist, duplikaatide kõrvaldamist ning märgendamise ja kvaliteedikontrolli.
Kasutusvaldkonnad: tekstitulemustel põhinevad uuringud keelearvutuses, kõnetuvastus, masinõpe ja mudelite treenimine, sõnavara ja grammika uuringud, tõlkeabilised süsteemid
Õigus ja ligipääs: paljud korpused on avatud andmed või litsentsitud Creative Commonsi alusel, kuid teised on
Väljakutsed: esindatuse tasakaal, keelelise mitmekesisuse kajastamine, dialektide ja slängi jäädvustamine, andmete kvaliteet ning suurte andmemahtude haldamine