korpusteannotatsioonides
Korpusteannotatsioonid on tekstikorpuste jaoks tehtud märgenduste kogum, mille käigus lisatakse teksti erinevaid tähiseid ja struktuure, et muuta andmed masinloetavaks ja analüüsitavaks. Töö hõlmab tavapäriselt esmast eeltööd, sealhulgas tokeniseerimist ja lausete eraldamist, ning seejärel morfoloogilist märgistamist ja lemmatiseerimist. Järgnevad tasandid hõlmavad süntaktilist märgendamist, kas sõltuvus- või konstituentstruktuuri, ning vajadusel semantilisi märgiseid (nimed, organisatsioonid, kohad) ning ko-reference ja diskursiivseid seoseid.
Korpusteannotatsioonide standardid ja formaatide valik sõltuvad eesmärkidest ning koostööprintsiipidest. Levinud on juhised, mis tagavad ühtlase märgistuse
Väljakutsed hõlmavad märgenduse töömahukust, subjektiivsust ja vajadust selgete juhiste järele; kehva kognitiivse ühtsuse tõttu võib tekkida