Home

distributieverschuiving

Distributieverschuiving, soms ook distributieverschuiving genoemd, is een begrip uit statistiek en machine learning dat verwijst naar veranderingen in de verdeling van data tussen de trainingsfase en de fase waarin een model in productie wordt gebruikt. Wanneer de trainingsdata niet identiek zijn aan de operationele data kan een model slechter presteren dan verwacht.

Vormen van distributieverschuiving omvatten onder meer covariate shift, waarbij de marginals van de input X veranderen

Oorzaken zijn onder meer veranderende gebruikersgedragingen, gewijzigde dataverzamelingsmethoden, andere sensoren of hardware, geografische variatie, seizoenpatronen en

Gevolgen van distributieverschuiving kunnen bestaan uit verminderde nauwkeurigheid, biased voorspellingen, en onverwachte foutpatronen, waardoor betrouwbaarheid en

Detectie gebeurt door monitoring van modelprestatie op productiegegevens, drift-detectie en statistische metingen zoals afwijkingen in verdelingen,

Mitigatie omvat technieken zoals domain adaptation en transfer learning, importance weighting om trainingsdata aan te passen

Het begrip speelt een belangrijke rol in veel AI-toepassingen waar data evolueert naarmate systemen in gebruik

terwijl
de
relatie
tussen
X
en
y
gelijk
blijft;
prior
shift
(label
shift),
waarbij
de
verdeling
van
het
doel
y
wijzigt
maar
de
foutloze
relatie
p(y|x)
gelijk
blijft;
en
concept
drift,
waarbij
de
relatie
p(y|x)
zelf
verandert
waardoor
zelfs
een
model
met
gelijke
inputwaarden
niet
meer
accuraat
is.
langer
lopende
trends.
veiligheid
in
kritieke
toepassingen
bedreigd
kunnen
worden.
KL-divergence
of
andere
afstandsmetriek
tussen
trainings-
en
operationele
data,
vaak
in
combinatie
met
backtesting.
aan
de
operationele
verdeling,
data-augmentatie,
periodiek
retrainen
van
modellen,
en
robuuste
of
ensemble-benaderingen
om
veerkracht
tegen
verschuivende
distributies
te
vergroten.
komen.