Datencleaning
Datencleaning bezeichnet den Prozess der Identifizierung, Korrektur oder Entfernung von fehlerhaften, unvollständigen oder inkonsistenten Daten aus einem Datensatz, um die Datenqualität zu verbessern. Der Begriff wird oft synonym mit Datenbereinigung verwendet. Gute Datencleaning ist eine vorbereitende Maßnahme für Analytik, Reporting und maschinelles Lernen.
Typische Aktivitäten umfassen Datenprofiling, Standardisierung und Normalisierung von Formaten und Einheiten, Behandlung fehlender Werte durch Imputation,
Methoden umfassen regelbasierte Korrekturen, Mustererkennung, Fuzzy Matching, Record Linkage, Outlier-Management und Datenanreicherung durch externe Quellen. In
Wichtige Qualitätsdimensionen sind Genauigkeit, Vollständigkeit, Konsistenz, Aktualität, Gültigkeit, Einzigartigkeit und Integrität. Datencleaning wird oft von Data
Herausforderungen umfassen Skalierung bei großen oder heterogenen Datenbeständen, Umgang mit fehlenden oder unstrukturierten Daten, Kosten und