korpusannotointia - Infinite Lexicon - Infinite Lexicon

korpusannotointia

Korpusannotointi on prosessi, jossa teksteihin lisätään järjestelmällisesti kielellistä tietoa. Tämä tieto muodostaa kerroksia eli annotation layers, joihin voidaan tallentaa muun muassa sanaluokkia, lemmatointia sekä syntaktista rakennetta ja nimeettyjen entiteettien tunnisteita. Korpusannotointi tukee sekä kielitieteellistä tutkimusta että luonnollisen kappaleen käsittelyn (NLP) sovelluksia, kuten konekäännöksiä ja puheentunnistusta. Eri kerrokset voivat olla erillisiä tai osittain päällekkäisiä riippuen tutkimustavoitteista.

Yleisimmät annotaatiokerrokset ovat tokenisointi ja sanaluokkien merkitseminen (POS), lemmatointi, syntaktinen rakenne (riippuvuustree tai puujäsenteet), nimeettyjen entiteettien

Prosessi ja laadunvarmistus muodostavat olennaisen osan korpusanannotoinnissa. Tyypillisesti mukana on ohjeistuksen laatiminen, esimerkki- tai automaattinen esimerkkimerkintä

Käyttökohteita ovat kielitieteen tutkimus, NLP-sovellukset sekä monikieliset kieliteknologiset projektit. Haasteita ovat annotaattorien välinen konsensus, domain- ja

pronominointimerkkaukset

merkintäjärjestelmät.

(pre-annotation),

luotettavaisuusmittaus

(inter-annotator

erimielisyyksien

ratkaisemiseksi.

tarkastamiseen.

TEI-Formaatteihin.

kieliriippuvuudet