tekstikokoelmat
Tekstikokoelmat ovat suuria tai pieniä kokoelmia tekstiä, joita kerätään kielitieteellistä tutkimusta, luonnollisen kielen käsittelyä (NLP) sekä kielen kehittämistä varten. Ne tarjoavat monipuolisen aineistopohjan kielellisten ilmiöiden tutkimiseen ja tilastolliseen analyysiin. Kokoelmat voivat keskittyä tiettyyn genreen, ajanjaksoon, kieleen tai käyttötarkoitukseen.
Rakenteeltaan ne voivat olla raakatekstiä tai monitasoisestiannotoituja: tokenisointi, sanaluokat (POS-tunnistus), lemmatisaatio, syntaktinen rakenne ja nimettyjen nimien
Hankinta ja käyttö asettavat oikeudellisia ja eettisiä näkökulmia. Tekstit voivat olla vapaasti käytettävissä tai tekijänoikeuden alaisia,
Käyttötarkoituksia ovat kielitieteellinen tutkimus, sanakirjoitus, kielimallien koulutus ja arviointi, frekvenssi- ja kontekstianalyysi sekä kontekstuaalinen tutkimus. Tekstikokoelmat
Saavutettavuus ja käyttöoikeudet vaihtelevat: osa kokoelmista on avoimia, toiset ovat rajoitettuja tai edellyttävät rekisteröitymistä. Useat alustat
Esimerkkejä ovat kansainväliset yleiskorpukset sekä erikoisalojen tekstikokoelmat. Kokoelmien kehittämisessä noudatetaan kehittyneitä standardeja ja kuvauksia, kuten TEI.