träningssettet
Träningssetet är den del av en dataset som används för att träna en maskininlärningsmodell. I övervakat lärande består träningssetet av par av ingångsvariabler (funktioner) och målvariabler (etiketter). Syftet är att modellen ska lära sig sambandet mellan ingångar och utgångar genom att justera modellens parametrar så att förlusten minimeras på träningsmaterialet.
Ofta delas data upp i tränings-, validerings- och testset. Träningssetet används för parameteranpassning, valideringssetet för hyperparametrar
Kvalitet och risker: data bör vara relevanta och av god kvalitet. Det bör undvikas data leakage, där
Praktiska metoder: normalisering eller standardisering av funktioner, hantering av obalanserade klasser, och korsvalidering för robusthet. Vid