Home

Wortrepräsentationen

Wortrepräsentationen sind Darstellungen von Wörtern in computergestützten Sprachverarbeitungssystemen, die Bedeutung, syntaktische Eigenschaften und relationale Beziehungen in numerischer Form festhalten. Sie unterscheiden sich grundlegend in diskrete symbolische Repräsentationen, wie Lexikon-Einträge mit Lemma, Wortform und morphologischen Merkmalen, und in kontinuierliche Repräsentationen, die als Vektoren aus Daten gelernt werden. Diskrete Repräsentationen waren lange Standard in der Lexikographie, während verteilte Repräsentationen aus großen Textkorpora entstanden. Diese lassen sich weiter in zwei Ansätze fassen: zählbasierte Methoden wie Latent Semantic Analysis (LSA) und Probabilistic Latent Semantic Analysis (PLSA) sowie prädiktive Modelle wie Word2Vec, GloVe und FastText. FastText berücksichtigt Unterwortinformationen, hilfreich für morphologische Sprachen. Gezielte Entwicklungen führen zu kontextabhängigen, dynamischen Repräsentationen: Bei klassischen, statischen Modellen hat jedes Wort eine feste Vektorrepräsentation; bei Kontextmodellen wie BERT, RoBERTa oder GPT erzeugt der Kontext unterschiedliche Vektoren für dasselbe Wort, wodurch Mehrdeutigkeiten besser aufgegriffen werden.

Anwendungen reichen von semantischer Ähnlichkeit, Analogiebildung, Information Retrieval, maschineller Übersetzung bis hin zu Textklassifikation und Frage-Antwort-Systemen.

---

Die
Bewertung
erfolgt
intrinsisch
durch
Wortähnlichkeits-
und
Analogieaufgaben
oder
extrinsisch
durch
Leistung
in
NLP-Pipelines.
Herausforderungen
umfassen
Polysemie,
Out-of-Vocabulary,
Bias
in
den
Daten,
Ressourcenbedarf
und
Mehrsprachigkeit.
Zukünftige
Entwicklungen
umfassen
multimodale
und
multilingualisierte
Ansätze,
effizientere
Lernverfahren
sowie
bessere
Handhabung
seltener
Wörter
durch
Subword-Modelle
und
Few-shot-Learning.