kielikokoelmia
Kielikokoelmat ovat kieliaineiston kokoelmia, joita kerätään ja järjestetään tutkimus- ja kehitystarpeita varten. Ne voivat sisältää kirjoitettua tekstiä, puheaineistoa sekä näiden annotaatioita sekä metatietoja kuten genre, lähde ja aikakausi. Kokoelmia voi olla sekä monikielisiä että yksikielisiä; ne palvelevat kielitieteellistä tutkimusta ja kielenkäsittelyn sovelluksia.
Tyypillisiä ovat kirjoitettua kieltä sisältävät korpukset, puhetta sisältävät äänite- ja transkriptioaineistot, rinnakkaiskokoelmat (kieliparit), sekä oppilaskokoelmat, joita
Rakentaminen edellyttää aineiston hankintaa ja luvanhallintaa sekä mahdollisesti anonymisointia. Kerätty materiaali merkitään ja annotoidaan eri tasoilla
Käyttötarkoitukset ovat laajat: kielitiede, sanakirjojen kehittäminen, kieltenopetus sekä luonnollisen kielen käsittelyn (NLP) järjestelmien kehittäminen, kuten konekäännökset