validointijoukolla
Validointijoukko on koneoppimisessa käytetty osa aineistosta, jonka tarkoituksena on arvioida ja optimoida mallin suorituskykyä kehitysvaiheessa. Se pidetään erillään harjoitusjoukosta ja testijoukosta. Validointijoukon avulla voidaan säätää hyperparametreja, verrata eri mallityyppejä ja seurata ylikoulutuksen riskiä, ilman että ylläpidetään lopullista arviointia tai tavataan tietojen antamaa muistinvaraista tulosta.
Käyttömenetelmät vaihtelevat tilanteen mukaan. Yksinkertaisessa hold-out-menetelmässä data jaetaan kolmeksi: harjoitusjoukko mallin opettamiseen, validointijoukko hyperparametrien säätöön, testijoukko
Metrikat ja tulosten tulkinta riippuvat ongelmasta, kuten tarkkuus, F1-pistemäärä, ROC-AUC tai virhemarginaali. Validointijoukko ei ole tarkoitettu
Varmuuskäytännöt ovat tärkeitä: vältä tietojen vuotamista (data leakage), käytä edustavaa jakaumaa ja harkitse kokonaisia tai sisäkkäisiä