entitetsmerking
Entitetsmerking, eller entitetsmerking i tekst, er prosessen med å identifisere og merke navngitte enheter i skreven tekst. Hver enhet tildeles en forhåndsdefinert kategori etter en annotasjonsordning, for eksempel person, organisasjon, sted, dato, tid, mengde, valuta, produkt eller lovverk. Entitetsmerking er en kjerneoppgave i informasjonsutvinning og naturlig språkbehandling (NLP), ofte omtalt som navngitt enhetsgjenkjenning (NER). Noen ganger inkluderer oppgaven også entitetslenking, det vil si kobling av enheter til eksterne kunnskapskilder som Wikidata.
Arbeidsflyten består vanligvis av: utarbeidelse av en annotasjonsordning, innsamling eller valg av treningsdata, menneskelig annotering og
Vanlige datasett inkluderer CoNLL-2003 og OntoNotes på engelsk, mens norske prosjekter som NorNE er utviklet for
Utfordringer inkluderer tvetydighet, overlappende eller nestede enheter, og behov for effektiv entitetslenking til eksterne kunnskapsbaser. Se