Metadatenextraktion
Metadatenextraktion bezeichnet den Prozess der automatischen oder manuellen Ableitung von Metadaten aus digitalen Objekten oder Datenquellen. Metadaten sind beschreibende oder technische Informationen, die Zusammenhang, Herkunft oder Nutzung eines Objekts ermöglichen, z. B. Autor, Erstellungsdatum, Dateigröße, Dateiformat, Ort, Copyright, Zugriffsrechte oder Kameramodell. Ziel ist es, Inhalte besser auffindbar, verwaltbar und überprüfbar zu machen.
Typische Quellen sind Dokumente (PDF, Office-Dateien), Multimedia-Dateien (Bilder, Audio, Video), Webseiten, Datenbanken und Sensorlogs. Die Extraktion
Metadaten lassen sich in Kategorien einteilen: deskriptive Metadaten zur Suche und Beschreibung, administrative Metadaten zur Verwaltung
Herausforderungen sind Datenschutz und PII-Schutz, Mehrdeutigkeiten, Mehrsprachigkeit, Qualitäts- und Konsistenzprobleme sowie Skalierbarkeit. Bekannte Tools sind Apache
Siehe auch: Metadatenstandards, Taxonomie, Ontologie, Daten-Governance.