Datenverschiebungen
Datenverschiebungen bezeichnen Veränderungen in der statistischen Verteilung von Daten zwischen Trainings- und Anwendungsdaten, Zeiträumen oder Quellen, die die Leistungsfähigkeit von Vorhersagemodellen beeinträchtigen können. In der Praxis unterscheiden Fachleute mehrere Formen: Kovariate Shift (P(X) ändert sich, P(Y|X) bleibt stabil); Konzeptdrift (P(Y|X) ändert sich); Prior Shift (P(Y) ändert sich, P(X|Y) bleibt stabil). Manchmal werden auch umfassendere Veränderungen als Data Drift zusammengefasst.
Ursachen sind zeitliche Veränderungen, neue Messgeräte, Änderung der Datenerhebung, Markt- oder Verhaltensänderungen, saisonale Muster sowie Stichprobenverzerrungen.
Zur Erkennung werden Drift-Messungen und Metriken verwendet: Der Population Stability Index (PSI) zum Vergleichen von Merkmalsverteilungen,
Zur Minderung von Datenverschiebungen gehören Retraining oder Online-Lernen, Domänenadaptation, Gewichtung von Instanzen, Merkmalsnormalisierung, robuste Lernmethoden und