træningsdataene
Træningsdataene er de data, der anvendes til at træne maskinlæringsmodeller. I supervised learning består de af eksempler, hvor hvert datapunkt indeholder et sæt inputfunktioner og et tilknyttet mål (label). Uden tilsyn kan træningsdataene være ulabelede observationer eller syntetisk genererede data. Kilderne varierer og kan omfatte offentlige datasæt, virksomheders logs, sensordata fra enheder, brugerinteraktioner eller data genereret specifikt til træning.
Kvalitet og forberedelse: Effektiv træning kræver rene, relevante og repræsentative data. Processer som rensning, behandling af
Data governance og etik: Håndtering af personoplysninger og privatliv kræver overholdelse af regler som GDPR, anonymisering
Datastruktur og versionering: Træningsdata opdeles normalt i trænings-, validerings- og testdatasæt for at vurdere generalisering. Dataene
Risici og drift: Bias, datadrevne skævheder og data drift kan påvirke modellen negativt og kræver løbende evaluering