Distributionalmodellen

Distributionalmodellen zijn statistische of probabilistische modellen die kenmerken van taalelementen (zoals woorden of zinnen) beschrijven aan de hand van hun waargenomen contexten in grote tekstcorpora. Het uitgangspunt is de distributional hypothesis: woorden die in vergelijkbare contexten voorkomen, hebben vergelijkbare betekenissen. Door taaldata op grote schaal te analyseren, leveren deze modellen numerieke representaties op die relaties tussen woorden vastleggen.

In de natuurlijke taalverwerking (NLP) verlopen de stappen doorgaans via een co-occurrentiematrix: tellen hoe vaak woorden

Toepassingen omvatten informatieopvraging, tekstclassificatie, informatiesamenvatting, zoekmachines, machinevertaling en sentimentanalyse. Voordelen zijn dat ze data-gedreven en taalonafhankelijk

vectorrepresentaties

afstandsmaatregelen

representaties,

stereotyperingen