Verteilungsverschiebungen
Verteilungsverschiebungen bezeichnet in der Statistik und im Maschinellen Lernen Abweichungen zwischen der Verteilung der Daten, die zum Trainieren eines Modells verwendet wurden, und der Verteilung, die in der Praxis auftreten kann. Typisch geht es um Unterschiede in P(X) oder P(Y|X) zwischen Trainings- und Einsatzdaten. Solche Verschiebungen können die Modellleistung erheblich beeinträchtigen, da Annahmen über die gemeinsame Verteilung verletzt werden.
Formen umfassen Covariate Shift (Veränderung von P(X) bei unveränderter P(Y|X)), Label Shift (Veränderung von P(Y) bei
Ursachen sind Veränderungen im Datenerfassungsprozess, in der Population, in Sensoren oder im Einsatzumfeld sowie zeitliche Entwicklungen.
Auswirkungen sind oft eine Verschlechterung der Vorhersagegenauigkeit, eine schlechtere Kalibrierung und potenziell verzerrte Entscheidungen. Die Erkennung
Gegenmaßnahmen umfassen Reweighting oder Importance Sampling, Domänenanpassung, regelmäßiges Retraining oder Online-Learning, robuste Modelle und Kalibrierung der