Home

Duplikatenerkennung

Duplikatenerkennung bezeichnet Verfahren zur Identifikation von doppelten Datensätzen, Objekten oder Textpassagen in einer Menge von Informationen. Das Ziel ist es, Mehrfachspeicherungen, Inkonsistenzen und verzerrte Analysen zu vermeiden und eine einheitliche Sicht auf Entitäten zu gewährleisten.

Typen: Explizite Duplikate liegen vor, wenn identische Werte oder eindeutige Kennungen übereinstimmen. Implizite Duplikate beschreiben dieselbe

Anwendungsgebiete sind Datenbanken, Data-Warehouses und Produktkataloge, Informations- und Websuche, Plagiaterkennung, wissenschaftliche Publikationen, Gesundheits- und Kundenstammdaten sowie

Methoden: Exakte Übereinstimmung nutzt Hashing oder Checksummen. Fuzzy Matching setzt auf Ähnlichkeitsmessungen wie der Levenshtein-Distanz, der

Prozess: Vorverarbeitung, Kandidatenerzeugung, Paarvergleich, Verifikation und Integration in eine einheitliche Datenbasis.

Bewertung erfolgt anhand von Metriken wie Präzision, Recall, F1-Score oder ROC-AUC; oft wird eine manuelle Prüfung

Herausforderungen sind heterogene Datenquellen, unvollständige oder fehlerhafte Daten, Skalierbarkeit und Datenschutz. Vorteile liegen in höherer Datenqualität,

Entität,
obwohl
Attribute
variieren.
In
vielen
Anwendungen
wird
dies
auch
als
Entity
Resolution
oder
Record
Linkage
bezeichnet.
bibliografische
Systeme.
Damerau-Levenshtein-Distanz,
Jaccard-
und
Dice-Koeffizienten
sowie
Kosinus-Ähnlichkeit.
Vorverarbeitung
umfasst
Normalisierung,
Tokenisierung
und
Standardisierung.
Zur
Skalierung
kommen
Blocking-Strategien,
Sorted
Neighborhood
oder
Locality-Sensitive
Hashing
zum
Einsatz.
Oft
werden
maschinelle
Lernmodelle
verwendet,
um
Paar-
oder
Entitätseigenschaften
zu
gewichten.
zur
Validierung
herangezogen.
konsistenteren
Analysen
und
reduzierten
Kosten
durch
Vermeidung
redundanter
Daten.