Datentraining
Datentraining bezeichnet den Prozess, bei dem Daten genutzt werden, um Modelle im Bereich des maschinellen Lernens und der künstlichen Intelligenz zu trainieren. Dazu gehört das Beschaffen, Vorverarbeiten und Auswählen von Daten sowie das Anpassen der Modellparameter anhand des Lernfortschritts. Datentraining unterscheidet sich von Inferenz oder Bereitstellung, wo das trainierte Modell für Vorhersagen eingesetzt wird.
Trainingsdaten können beschriftet (überwachtes Lernen) oder unbeschriftet (unüberwachtes Lernen) sein. Bei überwachten Lernaufgaben bilden Eingabedaten zusammen
Die Datenaufbereitung ist entscheidend: Fehlerhafte Einträge bereinigen, fehlende Werte behandeln, Normalisierung, Kodierung kategorialer Merkmale und Merkmalskonstruktion.
Qualität und Repräsentativität der Daten sind zentral: Verzerrte oder nicht repräsentative Daten führen zu verzerrten Modellen.
Governance und Best Practices umfassen die Versionierung von Datensätzen, Dokumentation (Datasheets for Datasets), sowie Monitoring von