Datenabgleich
Datenabgleich bezeichnet den Prozess, bei dem zwei oder mehr Datensätze oder Datenquellen systematisch auf Übereinstimmungen geprüft werden. Ziel ist es, Konsistenz zu gewährleisten, Doppelungen zu vermeiden und Inkonsistenzen zu identifizieren, damit Daten zuverlässig genutzt werden können. Typische Anwendungsfelder finden sich in der Datenverwaltung, im Master Data Management, in der Datenintegration von CRM- und ERP-Systemen sowie in Data-Warehousing- oder Berichtsprozessen.
Der Abgleich erfolgt in mehreren Schritten: Datenprofilierung und Bereinigung, um Formate anzugleichen; der eigentliche Abgleich mittels
Techniken umfassen deterministischen Abgleich, probabilistischen Abgleich nach Modellen wie Fellegi-Sunter, regelbasierte Ansätze und Fuzzy Matching. Maschinelles
Herausforderungen liegen in Mehrdeutigkeit, unvollständigen Werten, format- oder sprachspezifischen Unterschieden, der Skalierbarkeit großer Datenmengen sowie Datenschutz-