korpuszszöveggyjtemények
A korpuszszöveg a korpuszban található szövegegység, amelyet nyelvészeti vizsgálatok és természetesnyelv-feldolgozási (NLP) feladatok céljából gyűjtöttek, tároltak és adott esetben annotáltak. A korpusz egységei általában nyelvi példákat képviselnek, és a cél az, hogy a szövegek valós nyelvhasználatát tükrözzék egy adott nyelvi változatban vagy doménben.
Típusai között megtalálhatók általános és területspecifikus korpuszok, frekvencia-korpuszok, illetve tanuláshoz készült learner-korpuszok. A gyűjtés forrásai változatosak:
Az előfeldolgozás és annotáció során a szövegeket normalizálják, tokenizálják, lemmatizálják, és nyelvi jelölésekkel látják el (például
Felhasználási területek közé tartozik a szógyakoriság- és kolokáció-elemzés, kontextuális keresés, nyelvi modell-képzés, fordított és korpusz-alapú nyelvészeti