Home

Testmengen

Testmengen, auch Testsets genannt, sind Teilmengen eines Datensatzes, die reserviert werden, um die Leistung eines Modells nach dem Training zu bewerten. Sie sollen unbekannte Daten widerspiegeln und bleiben getrennt von den für das Training verwendeten Daten (und oft auch von den Validierungsdaten).

Aufbau und Vorgehen: Um eine unverzerrte Schätzung zu erhalten, sollte die Testmenge repräsentativ für die Population

Auswertung: Die Leistung des Modells auf der Testmenge wird mit geeigneten Metriken bewertet, abhängig von der

Fehlerquellen: Datenleckagen, bei denen Informationen aus der Testmenge das Training beeinflussen, oder Vorverarbeitungen, die auf dem

Zusammenhang: In der Kreuzvalidierung erfüllt sich der Aufgabenbereich der Testmenge durch das jeweils hold-out-Fold; bei Zeitreihen

sein
und
weder
für
Modellanpassungen
noch
für
Optimierungen
verwendet
werden.
Übliche
Ansätze
sind
ein
Holdout-Splitting
(z.
B.
70/15/15
Training/Validierung/Test),
stratified
Sampling
zur
Erhaltung
der
Klassenverteilung
sowie
zeitbasierte
Splits
bei
sequentiellen
Daten,
bei
denen
spätere
Beobachtungen
zurückgehalten
werden.
In
manchen
Arbeitsabläufen
dient
die
Validierungsmenge
der
Abstimmung,
während
die
Testmenge
unverändert
für
die
endgültige
Bewertung
bleibt.
Aufgabe
(Klassifikation:
Genauigkeit,
Präzision,
Recall,
F1,
ROC-AUC;
Regression:
RMSE,
MAE).
Ergebnisse
werden
oft
als
Punkteschätzungen
mit
Konfidenzintervallen
angegeben.
Zur
Reproduzierbarkeit
sollte
die
Teilung
dokumentiert
werden
oder
ein
fester
Zufallsseed
verwendet
werden.
gesamten
Datensatz
angepasst
werden,
können
zu
verzerrten
Ergebnissen
führen.
Kleine
Testmengen
erhöhen
die
Varianz
der
Schätzung.
Bei
zeitabhängigen
Daten
ist
darauf
zu
achten,
dass
kein
Leakage
über
Zeit
erfolgt;
Konzeptwechsel
(Concept
Drift)
kann
Testleistungen
über
die
Zeit
hinweg
unzuverlässig
machen.
bedeutet
Backtesting
eine
ähnliche
Rolle.
Die
Testmenge
dient
als
endgültige
Benchmark
zur
Beurteilung
der
Generalisierung
vor
dem
Einsatz.