Wortrepräsentationen

Wortrepräsentationen sind Darstellungen von Wörtern in computergestützten Sprachverarbeitungssystemen, die Bedeutung, syntaktische Eigenschaften und relationale Beziehungen in numerischer Form festhalten. Sie unterscheiden sich grundlegend in diskrete symbolische Repräsentationen, wie Lexikon-Einträge mit Lemma, Wortform und morphologischen Merkmalen, und in kontinuierliche Repräsentationen, die als Vektoren aus Daten gelernt werden. Diskrete Repräsentationen waren lange Standard in der Lexikographie, während verteilte Repräsentationen aus großen Textkorpora entstanden. Diese lassen sich weiter in zwei Ansätze fassen: zählbasierte Methoden wie Latent Semantic Analysis (LSA) und Probabilistic Latent Semantic Analysis (PLSA) sowie prädiktive Modelle wie Word2Vec, GloVe und FastText. FastText berücksichtigt Unterwortinformationen, hilfreich für morphologische Sprachen. Gezielte Entwicklungen führen zu kontextabhängigen, dynamischen Repräsentationen: Bei klassischen, statischen Modellen hat jedes Wort eine feste Vektorrepräsentation; bei Kontextmodellen wie BERT, RoBERTa oder GPT erzeugt der Kontext unterschiedliche Vektoren für dasselbe Wort, wodurch Mehrdeutigkeiten besser aufgegriffen werden.

Anwendungen reichen von semantischer Ähnlichkeit, Analogiebildung, Information Retrieval, maschineller Übersetzung bis hin zu Textklassifikation und Frage-Antwort-Systemen.

---

Wortähnlichkeits-

Analogieaufgaben

Herausforderungen

Out-of-Vocabulary,

Ressourcenbedarf

Mehrsprachigkeit.

multilingualisierte

Subword-Modelle

Few-shot-Learning.