Home

Informatieextractie

Informatieextractie is het proces waarbij automatisch gestructureerde informatie wordt afgeleid uit ongestructureerde of halfgestructureerde bronnen, zoals teksten, rapporten, e-mails en webpagina’s. Doel is om relevante feiten, entiteiten en relaties in een computers leesbaar formaat vast te leggen, bijvoorbeeld als records, triples of JSON-structuren.

Belangrijke taken binnen informatieextractie zijn onder meer naamgevingherkenning (NER) voor personen, organisaties en locaties; relatie-extractie die

Output van informatieextractie bestaat doorgaans uit gestructureerde data zoals entiteiten met labels, relationele triples of gestandaardiseerde

Toepassingen bevinden zich in onder meer business intelligence, compliance en risicoanalyse, informatie-ontsluiting in bibliotheken en wetenschappelijke

relaties
tussen
entiteiten
identificeert;
gebeurtenisextractie
die
uitspraken
over
gebeurtenissen
en
hun
deelnemers
vastlegt;
attribuut-waarde-extractie
waarmee
specifieke
kenmerken
van
entiteiten
worden
vastgelegd;
en
coreferentie
om
verwijzingen
naar
dezelfde
entiteit
te
koppelen.
De
aanpak
kan
rule-based,
statistisch
of
gebaseerd
op
machine
learning
en
deep
learning
zijn.
Moderne
systemen
combineren
vaak
meerdere
stappen
in
een
pipeline:
preprocessing
(tokenisatie,
normalisatie,
POS-tagging),
entity
herkenning,
relatie-
en
gebeurtenisextractie,
en
normalisatie
naar
een
ontology
of
kennisgrafiek.
records
die
gebruikt
kunnen
worden
in
zoekmachines,
knowledge
graphs,
dashboards
of
downstream
analysetaken.
Veelgebruikte
formaten
zijn
RDF,
JSON-LD
en
tabulaire
representaties.
literatuur,
gezondheidszorg
en
financiën.
Uitdagingen
zijn
onder
meer
ambiguïteit,
ambigu
verschillen
tussen
talen
en
domeinen,
schaarste
aan
gelabelde
data,
multimodale
bronnen
en
privacy-
en
beveiligingsvereisten.
Evaluatie
gebeurt
doorgaans
met
metrics
als
precisie,
recall
en
F1,
op
gestandaardiseerde
datasets.
Voorbeelden
van
tools
en
frameworks
zijn
onder
meer
spaCy,
Stanford
NLP,
Stanza,
OpenIE
en
HuggingFace-transformers.