Trainingsmengen
Trainingsmengen bezeichnet in der Statistik und dem maschinellen Lernen den Teil eines Datensatzes, der zum Trainieren eines Modells verwendet wird. Sie werden getrennt von Validierungs- und Testdaten gehalten und dienen der Anpassung der Modellparameter durch Optimierung auf Eingabe-Ausgabe-Beispiele.
Die Größe und Zusammensetzung der Trainingsmenge beeinflussen Lernverhalten und Generalisierung. Größere Trainingsmengen ermöglichen, komplexe Muster besser
Typische Praxis umfasst das Aufteilen des verfügbaren Datensatzes in Trainings-, Validierungs- und Testteil, oft in Kombination
Weitere Anforderungen betreffen Datenqualität und Vorverarbeitung: Entfernen von fehlerhaften Labels, Normalisierung, Merkmalsextraktion, sowie ggf. Datenaugmentation, um
Bei der Beurteilung der Lernleistung dienen Lernkurven, die Differenz zwischen Trainings- und Validierungsleistung, um Over-/Underfitting zu
Siehe auch: Trainingsdaten, Validierungsdaten, Testdaten, Kreuzvalidierung.