Textklassifikation
Textklassifikation bezeichnet die automatische Zuordnung von Textdokumenten zu vordefinierten Klassen basierend auf ihrem Inhalt. Ziel ist es, Texte durch algorithmische Modelle effizient in Kategorien wie Themen, Stimmungen oder Funktionen einzuordnen. Typische Anwendungsfelder umfassen Spam-Erkennung, Sentimentanalyse, die thematische Kategorisierung von Nachrichten sowie die Sortierung von Dokumenten in Informationssystemen.
Aufgabenformen: Überwachte Lernansätze dominieren, bei denen Modelle auf gekennzeichnete Datensätze trainiert werden. Es gibt auch halbüberwachte
Merkmale und Modelle: Typische Merkmale sind Bag-of-Words, TF-IDF, N-Gramme und semantische Repräsentationen wie Word Embeddings. Traditionelle
Evaluation und Datenbestände: Leistung wird mit Genauigkeit, Präzision, Recall und F1-Score gemessen. Beliebte Benchmark-Datensätze sind 20