validointidatalla
Validointidata tarkoittaa erillistä datakokonaisuutta, jota käytetään mallin suorituskyvyn arviointiin koulutusvaiheen aikana. Se on erotettu koulutusdatasta, jolla malli oppii, sekä testidatasta, jolla mitataan lopullinen suorituskyky. Validointidatan tarkoituksena on tarjota ei-koulutettuun dataan perustuva arvio mallin yleistyvyydestä sekä tukea hyperparametrien säätöä ja mallin valintaa ennen lopullista testausta.
Käytännössä validointidataa hyödynnetään useilla tavoilla. Yleisimmät menetelmät ovat hold-out-menetelmä, jossa osa datasta pidetään erillään koulutuksen arvioimista
Tärkeää on varmistaa, että validointidata on riittävän riippumaton koulutusdatasta, jotta tulokset eivät liioittele mallin todellista suorituskykyä.