Sprachmodellierung
Sprachmodellierung ist ein Teilgebiet der natürlichen Sprachverarbeitung (NLP), das die Wahrscheinlichkeit einer Folge von Wörtern oder Zeichen in einer Sprache schätzt. Ein Sprachmodell ordnet jeder möglichen Textsequenz eine Wahrscheinlichkeit zu und ermöglicht damit Aufgaben wie Vorhersage des nächsten Tokens, Generierung von Texten oder Bewertung von Sprachflüssen. Typische Ziele sind die Wahrscheinlichkeitsabschätzung von Wortfolgen und die Modellierung von Sprachstrukturen.
Historisch begann Sprachmodellierung mit statistischen Modellen wie n-gram-Modellen, die Wahrscheinlichkeiten von Wortfolgen anhand vorheriger n−1 Tokens
Anwendungen umfassen Textgenerierung, Autovervollständigung, Spracherkennung, maschinelle Übersetzung, Chatbots, Suchmaschinen-Ranking sowie Textzusammenfassung. Die Modelle werden auf großen
Herausforderungen umfassen hohen Rechenaufwand, Datenbias, Sicherheit, Datenschutz und das Risiko von Halluzinationen, d. h. das Generieren