korpusteannotatsioon
Korpusteannotatsioon on protsess, mille käigus keele- või kõnetekstid märgistatakse ja kirjeldatakse mitmel tasandil, et muuta need masinloetavaks ning võimaldada keeletehnoloogia ja keeleteaduse tööd. Annotatsioonid võivad hõlmata nii sõnade kui lausete tasandi märgistusi ning ulatuda morfoloogilisest ja süntaktilisest teabest semantiliste rollide ja diskursusstruktuurideni.
Tüübid hõlmavad tavaliselt tokeniseerimist ja morfoloogilist märgendamist ning lemmatiseerimist, süntaksside märgendust (sõltuvus- või konstitutsionaalne), nimeüksuste märgistamist
Protsess tavaliselt hõlmab annotatsioonijuhiste koostamist, annotatsiooni koolitust ning tegelikku märgistamist; seejärel viiakse läbi kvaliteedi kontroll ja
Formaadid ja tööriistad: levinud on UD (Universal Dependencies) süntaktiline märgistamine ning CoNLL- või TEI-vormingud. Populaarsed tööriistad
Rakendused ja väljakutsed: korpuspõhised andmed parandavad masinõppe mudelite täpsust, keelteuurimist ja lexikograafiat. Väljakutsed hõlmavad juhiste ühtsuse