Home

zscorenormalisering

Zscorenormalisering, ook wel standardisatie genoemd, is een methode om numerieke kenmerken van data zodanig te herschalen dat ze een gemiddelde van nul en een standaardafwijking van één hebben. De transformatie gebruikt de formule z = (x − μ) / σ, waarbij μ het gemiddelde van de datareeks en σ de standaarddeviatie is. In de praktijk worden μ en σ berekend op de trainingsverzameling en daarna toegepast op zowel trainings- als testdata. Door de kenmerken op deze manier te centreren en te schalen, worden ze beter vergelijkbaar waardoor algoritmen die afhankelijk zijn van de schaal van de invoer sneller en stabieler kunnen leren.

Zscorenormalisering wordt veel toegepast bij algoritmen die gevoelig zijn voor de schaal van de kenmerken of

Let op beperkingen: ze is gevoelig voor uitbijters, die de standaarddeviatie verhogen en z-scores scheef kunnen

die
uitgaan
van
gelijke
variatie,
zoals
lineaire
regressie,
ridge-
en
lasso-modellen,
k-nearest
neighbours,
support-vector
machines
en
principal
component
analysis.
In
tegenstelling
tot
min-max-normalisatie
behoudt
standaardisatie
de
vorm
van
de
verdeling
van
de
data,
maar
verschuift
en
schaalt
hij
deze
naar
een
gemeenschappelijke
standaard.
Het
is
ook
handig
bij
optimalisatie,
omdat
coëfficiënten
minder
afhankelijk
worden
van
de
oorspronkelijke
eenheden.
maken.
Voor
nominale
of
binaire
data
is
z-scoring
niet
zinvol.
Voor
robuuste
toepassingen
kan
men
robuuste
standaardisatie
gebruiken
of
uitbijters
verwijderen.
In
toepassingen
wordt
meestal
de
parameters
μ
en
σ
berekend
op
de
trainingsset
en
vervolgens
toegepast
op
de
testset.