Annotationsqualität
Annotationsqualität bezeichnet die Güte der Zuordnungen in annotierten Datensätzen. Sie umfasst Merkmale wie Genauigkeit, Konsistenz, Vollständigkeit und Nachvollziehbarkeit der Annotationen über verschiedene Beispiele, Versionen und Annotatoren hinweg.
Zu den zentralen Qualitätsmerkmalen zählen die Genauigkeit der Labels gegenüber dem Referenzziel, die Konsistenz zwischen Annotatoren
Messgrößen zur Beurteilung der Annotationqualität umfassen Interrater-Agreement-Metriken wie Cohen’s Kappa, Krippendorffs Alpha und Fleiss’ Kappa, ferner
Sicherstellung von Qualität erfolgt durch klare Annotation Guidelines, Schulung der Annotatoren, Pilotannotationen, adjudikation (Konfliktauflösung), Mehrfachannotation mit
Herausforderungen umfassen Subjektivität und Mehrdeutigkeit bei Data-Labels, Bias in Schulung und Aufgabenstellung, Klassenungleichgewicht, Ermüdung der Annotierenden,
Anwendungsbereiche liegen in der Erstellung von Datensätzen für maschinelles Lernen in NLP, Computer Vision, Spracherkennung oder
Standards und Ethik betreffen die Entwicklung klarer Guidelines, Datenschutz und Anonymisierung sensibler Informationen sowie die transparente