datauppdelning
Datauppdelning, eller data partitioning, är processen att dela en dataset i flera delmängder med avsikt att träna och utvärdera modellens prestanda på ett opåverkat material. Vanligen används minst två eller tre delar: träningsdata för att lära modellen, valideringsdata för hyperparameterjustering och testdata för en slutgiltig bedömning av hur modellen sannolikt kommer fungera i praktiken. En korrekt uppdelning är central för att uppskatta generalisering och motverka överanpassning.
Vanliga uppdelningar och strategier omfattar: slumpmässig uppdelning där data delas oberoende av ordning, ofta i 60/20/20
Viktiga principer och risker inkluderar att undvika data leakage där information från test- eller valideringsdelar influenser