Dubletten - Infinite Lexicon - Infinite Lexicon

Dubletten

Dubletten sind in Informationssystemen Datensätze, die denselben realen Gegenstand oder dieselbe Entität mehrmals repräsentieren. Sie können exakt identisch sein oder nur ähnliche Merkmale aufweisen, wodurch sie als Duplikate erscheinen. Typische Bereiche mit Dubletten sind Datenbanken, Bibliothekskataloge, CRM-Systeme, E‑Commerce-Kataloge und Archive.

Ursachen reichen von Mehrfacheingaben und der Zusammenführung unterschiedlicher Datenquellen bis hin zu inkonsistenten Identifikatoren, Namens- oder

Auswirkungen sind Redundanz, erhöhter Speicherbedarf, potenziell widersprüchliche oder unvollständige Informationen sowie beeinträchtigte Analysen, Berichte und Kundenerfahrungen.

Erkennung erfolgt durch Abgleich von Feldern wie Name, Anschrift, Geburtsdatum oder Identifikatoren. Methoden umfassen deterministischen Abgleich,

Prävention und Management umfassen Datenqualität, Governance und Master Data Management, eindeutige Schlüssel, Standardisierung von Eingaben, Validierungsregeln

Adressvarianten,

probabilistisches

Deduplication-Pipelines

Reinigungsprozesse.

UNIQUE-Constraints

Produktkatalogen

Informationsqualität.