Home

Merkmalsmatrix

Merkmalsmatrix, auch Feature-Matrix oder Designmatrix genannt, bezeichnet eine zweidimensionale Datenstruktur, die in Statistik, Maschinellem Lernen und Datenanalyse verwendet wird. Typischerweise enthält die Merkmalsmatrix n Zeilen, wobei jede Zeile eine Beobachtung (Sample) repräsentiert, und p Spalten, die verschiedene Merkmale (Attribute, Variablen) darstellen. Die Matrix wird oft mit X bezeichnet und hat die Dimensionen n×p. Die Einträge Xij stehen für den Wert des j-ten Merkmals bei der i-ten Beobachtung. Merkmale können numerisch (z. B. Alter, Einkommen) oder kategorial (z. B. Geschlecht) sein; für kategoriale Merkmale erfolgt meist eine Kodierung, etwa One-Hot oder Label-Encoding, wodurch die Matrix numerisch wird. Fehlende Werte müssen behandelt werden, bevor Modelle trainiert werden.

In der Statistik wird der Begriff Designmatrix verwendet, insbesondere in Regressionsmodellen, wo zusätzlich ein Spaltenvektor für

Die Merkmalsmatrix bildet die Eingabe für Lernalgorithmen wie lineare oder logistische Regression, SVM, Entscheidungsbäume oder neuronale

den
Achsenabschnitt
vorgesehen
ist.
In
der
Praxis
sind
Merkmalsmatrizen
oft
roh
oder
nach
Transformationen
geprägt,
und
es
kann
eine
Intercept-Spalte
enthalten
sein.
Abhängig
von
der
Kompaktheit
werden
dichte
Matrizen
(dense)
oder
spärliche
Matrizen
(sparse)
verwendet,
insbesondere
bei
vielen
kategorialen
Merkmalen.
Netze.
Typische
Vorverarbeitungsschritte
umfassen
Skalierung/Standardisierung,
Kodierung,
Imputation
fehlender
Werte
und
Merkmalsextraktion.