Home

Distributionalmodellen

Distributionalmodellen zijn statistische of probabilistische modellen die kenmerken van taalelementen (zoals woorden of zinnen) beschrijven aan de hand van hun waargenomen contexten in grote tekstcorpora. Het uitgangspunt is de distributional hypothesis: woorden die in vergelijkbare contexten voorkomen, hebben vergelijkbare betekenissen. Door taaldata op grote schaal te analyseren, leveren deze modellen numerieke representaties op die relaties tussen woorden vastleggen.

In de natuurlijke taalverwerking (NLP) verlopen de stappen doorgaans via een co-occurrentiematrix: tellen hoe vaak woorden

Toepassingen omvatten informatieopvraging, tekstclassificatie, informatiesamenvatting, zoekmachines, machinevertaling en sentimentanalyse. Voordelen zijn dat ze data-gedreven en taalonafhankelijk

samen
voorkomen
binnen
een
bepaald
venster,
vervolgens
wegen
en
reduceren
van
dimensies
om
vectorrepresentaties
te
krijgen.
Bekende
benaderingen
zijn
traditionele
Vector
Space
Models
(VSM)
en
Latent
Semantic
Analysis
(LSA).
Moderne
technieken
trainen
neurale
netwerken
om
woordvectoren
te
leren,
zoals
Word2Vec,
GloVe
en
FastText,
die
rijke
semantische
relaties
vastleggen.
Deze
vectoren
maken
het
mogelijk
om
semantische
gelijkenis
te
meten
met
afstandsmaatregelen
zoals
cosine
similarity.
Ook
buiten
woordniveau
bestaan
distributional
modellen,
bijvoorbeeld
topicmodellen
als
Latent
Dirichlet
Allocation
die
documenten
als
verdelingen
over
thema's
beschrijven.
zijn,
en
schaalbaar
met
grote
corpora.
Nadelen
zijn
de
behoefte
aan
grote
hoeveelheden
data
en
rekenkracht,
uitdagingen
rond
polysemie
en
context,
beperkte
interpretatie
van
de
representaties,
en
mogelijkheden
van
biases
en
stereotyperingen
in
trainingsdata.