BildTextDatensätzen
BildTextDatensätze (image-text datasets) sind Sammlungen von Bildern, die jeweils mit textuellen Beschreibungen oder Annotationsdaten verknüpft sind. Sie dienen hauptsächlich der Entwicklung, dem Training und der Bewertung von Systemen, die visuelle Informationen und Sprache gemeinsam verarbeiten, etwa zur Bildbeschreibung, Fragebeantwortung oder bildtextlicher Suche.
Typische Varianten umfassen Bildbeschreibungen (Captioning-Datasets), Frage-Antwort-Paare (VQA-Datensätze), oder Paare aus Bildinhalten und Metadaten wie Tags oder
Zu den bekanntesten Beispielen gehören COCO und Flickr30k mit Bild-Beschreibungspaaren, sowie VQA-Datensätze, die Fragen zu Bildern
Die Daten entstehen meist durch Web-Sammlung oder kontrollierte Produktion. Beschreibungen werden häufig durch Crowdsourcing erzeugt, gefolgt
Anwendungen umfassen automatische Bildbeschreibung, visuelle Frage-Beantwortung, visuell-sprachliche Suche und multimodale Repräsentationen. Bewertet werden Modelle mit Metriken
Herausforderungen umfassen Mehrsprachigkeit, Domänenanpassung, Verzerrungen in den Trainingsdaten, Qualitäts- und Bias-Probleme sowie rechtliche Fragestellungen zu Nutzungsrechten