Termgewichtung
Termgewichtung beschreibt die Verfahren, einem Wort bzw. einem Term in einem Dokument einen numerischen Wert zuzuweisen. Dieser Wert soll die Bedeutung des Terms für die Relevanz eines Dokuments bei einer Suchanfrage reflektieren. Häufig wird die Termgewichtung in der Informationsretrieval-Forschung genutzt, um die Wahrscheinlichkeit zu schätzen, dass ein Dokument zu einer Suchanfrage passt.
Ein stark verbreitetes Verfahren ist TF‑IDF, das die Termfrequenz (TF) eines Terms im Dokument mit der Inversen
Neben TF‑IDF existieren weitere Verfahren wie BM25, welches als probabilistisches Rankingmodell die Gewichtung über Stapelung mathematischer
Die Wahl der Gewichtungsmethode hängt von der Domäne und dem Texttyp ab. In großen Korpora mit sehr