Home

Dubletten

Dubletten sind in Informationssystemen Datensätze, die denselben realen Gegenstand oder dieselbe Entität mehrmals repräsentieren. Sie können exakt identisch sein oder nur ähnliche Merkmale aufweisen, wodurch sie als Duplikate erscheinen. Typische Bereiche mit Dubletten sind Datenbanken, Bibliothekskataloge, CRM-Systeme, E‑Commerce-Kataloge und Archive.

Ursachen reichen von Mehrfacheingaben und der Zusammenführung unterschiedlicher Datenquellen bis hin zu inkonsistenten Identifikatoren, Namens- oder

Auswirkungen sind Redundanz, erhöhter Speicherbedarf, potenziell widersprüchliche oder unvollständige Informationen sowie beeinträchtigte Analysen, Berichte und Kundenerfahrungen.

Erkennung erfolgt durch Abgleich von Feldern wie Name, Anschrift, Geburtsdatum oder Identifikatoren. Methoden umfassen deterministischen Abgleich,

Prävention und Management umfassen Datenqualität, Governance und Master Data Management, eindeutige Schlüssel, Standardisierung von Eingaben, Validierungsregeln

Adressvarianten,
Tippfehlern
und
Migrationen.
Wenn
Inhalte
aus
mehreren
Systemen
kombiniert
werden,
entstehen
häufig
Dubletten.
probabilistisches
Record
Linkage
und
Fuzzy
Matching.
Automatisierte
Deduplication-Pipelines
prüfen
regelmäßig
Datensätze;
manuelle
Prüfung
kann
erforderlich
sein.
und
regelmäßige
Reinigungsprozesse.
Ziel
ist
ein
Golden
Record,
während
in
Datenbanken
UNIQUE-Constraints
und
deduplizierte
Kataloge
helfen,
künftige
Dubletten
zu
vermeiden.
In
Bibliotheken,
Kunden-
und
Produktkatalogen
ist
die
konsequente
Vermeidung
von
Dubletten
Bestandteil
der
Datenpflege
und
der
Informationsqualität.