Verteilungsverschiebung
Verteilungsverschiebung ist ein Begriff aus Statistik und Maschinellem Lernen, der eine Veränderung der Wahrscheinlichkeitsverteilung der Eingangsgrößen X und/oder der Zielvariable Y zwischen dem Datensatz, mit dem ein Modell trainiert wurde, und dem Datensatz in der Anwendung beschreibt. Formal gilt P_train(X, Y) ≠ P_target(X, Y). Solche Verschiebungen führen häufig zu schlechterer Vorhersageleistung, weil Modelle Annahmen über die Verteilung der Daten treffen, die nicht mehr zutreffen.
Zu den wichtigsten Typen gehören Covariate Shift, bei dem sich P(X) ändert, P(Y|X) jedoch konstant bleibt; Prior
Ursachen sind Veränderungen der Umwelt, der Nutzerdemografie, Zeitabläufe, Mess- oder Erfassungsmethoden sowie neue Datenquellen oder Sensoren.
Die Erkennung von Verteilungsverschiebungen erfolgt durch Monitoring der Modellleistung auf aktuellen Daten, Vergleiche von Verteilungskennzahlen (z.
Gegenmaßnahmen reichen von erneuter Modellierung mit aktuellen Daten, Reweighting (Importance Sampling) bei Covariate Shift, Domänenadaptation und