Duplikatenerkennung

Duplikatenerkennung bezeichnet Verfahren zur Identifikation von doppelten Datensätzen, Objekten oder Textpassagen in einer Menge von Informationen. Das Ziel ist es, Mehrfachspeicherungen, Inkonsistenzen und verzerrte Analysen zu vermeiden und eine einheitliche Sicht auf Entitäten zu gewährleisten.

Typen: Explizite Duplikate liegen vor, wenn identische Werte oder eindeutige Kennungen übereinstimmen. Implizite Duplikate beschreiben dieselbe

Anwendungsgebiete sind Datenbanken, Data-Warehouses und Produktkataloge, Informations- und Websuche, Plagiaterkennung, wissenschaftliche Publikationen, Gesundheits- und Kundenstammdaten sowie

Methoden: Exakte Übereinstimmung nutzt Hashing oder Checksummen. Fuzzy Matching setzt auf Ähnlichkeitsmessungen wie der Levenshtein-Distanz, der

Prozess: Vorverarbeitung, Kandidatenerzeugung, Paarvergleich, Verifikation und Integration in eine einheitliche Datenbasis.

Bewertung erfolgt anhand von Metriken wie Präzision, Recall, F1-Score oder ROC-AUC; oft wird eine manuelle Prüfung

Herausforderungen sind heterogene Datenquellen, unvollständige oder fehlerhafte Daten, Skalierbarkeit und Datenschutz. Vorteile liegen in höherer Datenqualität,

bibliografische

Damerau-Levenshtein-Distanz,

Dice-Koeffizienten

Kosinus-Ähnlichkeit.

Vorverarbeitung

Normalisierung,

Standardisierung.

Blocking-Strategien,

Locality-Sensitive

Entitätseigenschaften