korpusannotointia
Korpusannotointi on prosessi, jossa teksteihin lisätään järjestelmällisesti kielellistä tietoa. Tämä tieto muodostaa kerroksia eli annotation layers, joihin voidaan tallentaa muun muassa sanaluokkia, lemmatointia sekä syntaktista rakennetta ja nimeettyjen entiteettien tunnisteita. Korpusannotointi tukee sekä kielitieteellistä tutkimusta että luonnollisen kappaleen käsittelyn (NLP) sovelluksia, kuten konekäännöksiä ja puheentunnistusta. Eri kerrokset voivat olla erillisiä tai osittain päällekkäisiä riippuen tutkimustavoitteista.
Yleisimmät annotaatiokerrokset ovat tokenisointi ja sanaluokkien merkitseminen (POS), lemmatointi, syntaktinen rakenne (riippuvuustree tai puujäsenteet), nimeettyjen entiteettien
Prosessi ja laadunvarmistus muodostavat olennaisen osan korpusanannotoinnissa. Tyypillisesti mukana on ohjeistuksen laatiminen, esimerkki- tai automaattinen esimerkkimerkintä
Käyttökohteita ovat kielitieteen tutkimus, NLP-sovellukset sekä monikieliset kieliteknologiset projektit. Haasteita ovat annotaattorien välinen konsensus, domain- ja