Home

gebeurtenisextractie

Gebeurtenisextractie is een taak binnen informatie-extractie die gericht is op het herkennen en structureren van gebeurtenissen uit tekst. Het doel is om uit ongestructureerde bronnen zoals nieuwsartikelen, rapporten of sociale media zowel de gebeurtenissoort als de relevante informatievelden te extraheren.

Een gebeurtenis bestaat doorgaans uit een type en een set argumenten of rollen. Het type geeft aan

Methoden voor gebeurtenisextractie variëren van regel-gebaseerde systemen tot statistische en diepe leermodellen. Traditioneel worden patronen, gazetteers

Toepassingen omvatten ondersteuning bij nieuws- en onderzoeksanalyse, automatische samenvatting en vraag-beantwoording, risicoanalyse in bedrijfs- of beveiligingscontext,

Uitdagingen zijn onder meer het herkennen van impliciete gebeurtenissen, cross-sentence en cross-document verwijzingen, kernreferentie en co-referentie,

Evaluatie gebruikt meestal precisie, recall en F1-score. Veel gebruikte benchmarks zijn ACE-2005 en RAMS, maar ook

welke
gebeurtenis
het
is
(bijvoorbeeld
een
overname,
een
aankoop
of
een
protest),
terwijl
de
argumenten
de
deelnemers
en
context
beschrijven,
zoals
wie
erbij
betrokken
is
(agent),
wat
er
gebeurt
(object/tema),
wanneer
en
waar
het
gebeurt,
en
eventueel
instrumenten
of
redenen.
Een
specifieke
gebeurtenis
wordt
vaak
gemarkeerd
door
een
triggerwoord
of
uitdrukking
die
de
gebeurtenis
aanduidt.
en
afhankelijkheidsparsing
toegepast.
Moderne
systemen
gebruiken
neurale
netwerken
en
pre-trained
taalmodellen,
vaak
in
een
end-to-end
of
gezamenlijke
leeropzet,
om
triggers
en
argumenten
tegelijk
te
herkennen
en
te
koppelen.
en
het
bouwen
van
semantische
zoek-
en
kennisgrafen.
Evenementgegevens
kunnen
worden
geëxporteerd
naar
gestructureerde
gegevensmodellen
voor
downstream
taken.
ambiguïteit
van
triggerwoorden,
negatie
en
modaliteit,
en
de
temporele
volgorde
van
gebeurtenissen.
Daarnaast
verschilt
de
aanpak
per
taal
en
domein.
domeinspecifieke
corpora
en
multinationale
datasets
bestaan.
Gebeurtenisextractie
is
een
actief
onderzoeksgebied,
met
aandacht
voor
crosslinguale
en
cross-domein
generalisatie
en
integratie
met
andere
informatie-extractie
taken.