Datensplits
Datensplits bezeichnet das Aufteilen eines Datensatzes in mehrere Teilmengen, um Modelle zu trainieren, zu abstimmen und zu evaluieren. Typische Split-Schemata sind der Holdout-Ansatz mit Trainings-, Validierungs- und Testmenge oder einfache Train-Test-Splits. Oft werden Verhältnisse wie 70/15/15 oder 80/10/10 verwendet; zusätzlich kann eine Stratifikation nach Klassen erfolgen, um unausgeglichene Verteilungen auszugleichen. Zur robusteren Leistungsabschätzung werden häufig K-Fold-Kreuzvalidierung oder wiederholte Kreuzvalidierung eingesetzt, bei denen der Datensatz in K Teilmengen aufgeteilt wird und jeweils eine Teilmenge zum Testen dient, während die restlichen zu Training verwendet werden.
Bei zeitbasierten Daten erfolgt die Aufteilung zeitlich konsistent, zum Beispiel mit Rolling- oder Forward-Chaining-Splits, sodass frühere