Home

relatieclassificatie

Relatieclassificatie is een taak uit de informatica en taaltechnologie die draait om het automatisch bepalen van de semantische relatie tussen entiteiten die in tekst worden genoemd. Het doel is uit een zin of fragment de onderlinge relatie tussen twee of meer entiteiten vast te leggen en toe te wijzen aan een relatiecategorie, zoals geboorteplaats of werkgever. In bredere zin maakt relatieclassificatie deel uit van relation extraction en draagt het bij aan de automatisering van kennisopbouw uit ongestructureerde bronnen.

Tijdens een typische classificietaak wordt een zin met twee of meer entiteiten genomen, bijvoorbeeld een persoon

Methoden variëren van traditionele machine learning met handgeengineerde kenmerken tot moderne neurale netwerken. Eerdere benaderingen gebruikten

Toepassingen liggen in informatie-extractie, het opbouwen en onderhouden van kennisgrafieken, vraag-antwoord-systemen en automatische samenvattingen van relaties

en
een
organisatie,
en
wordt
een
label
gekozen
uit
een
set
van
mogelijke
relaties
(bijv.
geboorte_op,
woont_in,
werkt_bij,
eigenaar_van).
De
input
omvat
meestal
de
tekstopmaak,
entiteitsmarkeringen
en
soms
extra
syntactische
informatie.
Het
uiteindelijke
doel
is
een
gestructureerde
representatie
die
kan
worden
opgeslagen
in
een
kennisgrafiek
of
gebruikt
voor
downstream
toepassingen.
features
gebaseerd
op
syntaxis
en
afstand
tussen
entiteiten;
recente
systemen
vertrouwen
op
transformer-gebaseerde
modellen
die
context
beter
vastleggen.
Onderzoek
maakt
veelvuldig
gebruik
van
publieke
datasets
zoals
SemEval-2010
Task
8
en
TACRED,
en
evalueert
meestal
op
nauwkeurigheid,
F1-score
of
zowel
per-relatie
als
macro-F1.
Transfer
learning
en
multilinguale
of
cross-domain
evaluatie
zijn
actueel.
in
teksten.
Uitdagingen
zijn
onder
meer
ambiguïteit,
lange
afstand
tussen
entiteiten,
onvolledige
of
inconsistent
gelabelde
data
en
bias;
domain-verschillen
bemoeilijken
generalisatie.
Het
veld
blijft
zich
ontwikkelen
met
betere
pretraining,
structuur-inducerende
inductie
en
beter
dataset-ontwerp.