Tekstclassificatie

Tekstclassificatie is het proces waarbij automatische systemen tekst toewijzen aan een of meerdere categorieën op basis van inhoud en context. Het doel is om ongestructureerde tekst te ordenen en zo bruikbare informatie te extraheren. Klassen kunnen enkelvoudig (single-label) of meervoudig (multi-label) zijn; in veel toepassingen gaat het om één klasse per document, in andere gevallen mogen meerdere labels tegelijk gelden.

Representaties: Tekst wordt omgezet in numerieke kenmerken door methoden zoals bag-of-words, TF-IDF of woord- en contextuele

Methoden: Traditionele benaderingen berusten op leren met gelabelde trainingsdata, maar ook onbegeleide en semi-gesuperviseerde technieken bestaan.

Workflow: verzamelen en labelen van data, preprocessing (tokenisatie, normalisatie), feature-extractie, modeltraining, evaluatie en tuning, deployment en

Toepassingen: spamdetectie, sentimentanalyse, toewijzing van documenten aan onderwerpen, intentie-classificatie in chatbots, en taal-/dialectidentificatie.

Uitdagingen: data-kwaliteit, annotatiekosten, class imbalance, domain shift, afstemming op korte tekst, en biases. Voor Nederlandse teksten

transformer-gebaseerde

transformer-modellen

nauwkeurigheid,