Duplikatenerkennung
Duplikatenerkennung bezeichnet Verfahren zur Identifikation von doppelten Datensätzen, Objekten oder Textpassagen in einer Menge von Informationen. Das Ziel ist es, Mehrfachspeicherungen, Inkonsistenzen und verzerrte Analysen zu vermeiden und eine einheitliche Sicht auf Entitäten zu gewährleisten.
Typen: Explizite Duplikate liegen vor, wenn identische Werte oder eindeutige Kennungen übereinstimmen. Implizite Duplikate beschreiben dieselbe
Anwendungsgebiete sind Datenbanken, Data-Warehouses und Produktkataloge, Informations- und Websuche, Plagiaterkennung, wissenschaftliche Publikationen, Gesundheits- und Kundenstammdaten sowie
Methoden: Exakte Übereinstimmung nutzt Hashing oder Checksummen. Fuzzy Matching setzt auf Ähnlichkeitsmessungen wie der Levenshtein-Distanz, der
Prozess: Vorverarbeitung, Kandidatenerzeugung, Paarvergleich, Verifikation und Integration in eine einheitliche Datenbasis.
Bewertung erfolgt anhand von Metriken wie Präzision, Recall, F1-Score oder ROC-AUC; oft wird eine manuelle Prüfung
Herausforderungen sind heterogene Datenquellen, unvollständige oder fehlerhafte Daten, Skalierbarkeit und Datenschutz. Vorteile liegen in höherer Datenqualität,