Dublettenkonsolidierung
Dublettenkonsolidierung ist der Prozess der Erkennung und Zusammenführung von Dubletten in Datensätzen, um Redundanzen zu vermeiden und die Konsistenz zu erhöhen. Ziel ist es, für jede Entität (Person, Produkt, Organisation etc.) einen singulären, belastbaren Repräsentanten zu erstellen – den sogenannten Golden Record.
Der typischer Ablauf umfasst Profiling, Identifikation potenzieller Dubletten durch Matching, Gruppierung ähnlicher Datensätze (Clustering) und abschließende
Methoden der Dublettenkonsolidierung variieren. Regelbasierte Ansätze nutzen Felder wie Namen, Adressen, Geburtsdaten oder Telefonnummern; probabilistische Ansätze
Anwendungen und Vorteile finden sich insbesondere in CRM-Systemen, Bibliothekssystemen oder E-Commerce-Katalogen. Die Konsolidierung verbessert Datenqualität, ermöglicht
Kennzahlen und Governance: Metriken wie Präzision, Recall, F1-Score, Duplikatsreduktion und Merge-Fehlerrate geben Aufschluss über die Effektivität.