Home

MinMaxSkalierung

MinMaxSkalierung, auch Min-Max-Normalisierung genannt, ist eine Methode der Datenvorverarbeitung, die Merkmale eines Datensatzes auf einen festen Wertebereich skaliert, üblicherweise [0, 1] oder [-1, 1]. Jedes Merkmal wird unabhängig von den anderen transformiert.

Die Transformation erfolgt pro Merkmal anhand des Minimalwerts und des Maximalwerts des Merkmals. Die Standardform lautet

In Maschinellen Lernprozessen wird MinMaxSkalierung oft vor Algorithmen eingesetzt, die empfindlich auf die Skala von Eingaben

Zu den Nachteilen gehört die Empfindlichkeit gegenüber Ausreißern, da extreme Werte Min und Max verzerren können.

Alternativen umfassen die Z-Standardisierung (Standardisierung) mit Mittelwert 0 und Standardabweichung 1 oder robuste Skalierung, die Median

x'
=
(x
-
min(x))
/
(max(x)
-
min(x))
für
den
Bereich
[0,
1].
Für
einen
allgemeinen
Bereich
[a,
b]
gilt
x'
=
a
+
(x
-
min(x))
/
(max(x)
-
min(x))
*
(b
-
a).
reagieren,
z.
B.
k-Nearest
Neighbors,
Gradient-Descent-Optimization
oder
neuronale
Netze.
Die
Skalierung
wird
typischerweise
auf
die
Trainingsdaten
angepasst
und
dieselben
min-
und
max-Werte
auch
auf
Validierungs-
oder
Testdaten
angewendet,
um
Daten-Leakage
zu
vermeiden.
Falls
neue
Daten
außerhalb
des
ursprünglichen
Bereichs
auftreten,
kann
dies
die
skalierten
Werte
verzerren.
Bei
konstanten
Merkmalen
(max
=
min)
muss
die
Division
vermieden
werden;
oft
wird
in
diesem
Fall
der
Wert
0
gesetzt.
und
Interquartilabstand
verwendet.
MinMaxSkalierung
eignet
sich
gut,
wenn
eine
feste
Bereichsskalierung
verlangt
ist
und
die
Daten
relativ
gut
verteilt
sind.