validointidataa
Validointidata on dataa, jota käytetään mallin suorituskyvyn arviointiin koulutuksen aikana. Sen tarkoituksena on antaa epäriippumaton arvio siitä, kuinka hyvin malli yleistyy opetettuun dataan. Validointidataa voidaan hyödyntää hyperparametrien säätöön sekä mallin valintaan ennen lopullista testausvaihetta.
Yleisiä lähestymistapoja ovat hold-out- validointi, jossa data erotetaan erikseen koulutus- ja validointiskennöön, sekä k-fold- tai stratified
Käyttöä suunniteltaessa on tärkeää välttää datavuotoa: validointidata ei saa sisältää tietoja, joita mallin pitäisi oppia koulutuksesta,
Metrikat validointiin voivat olla tarkkuus, F1-piste, ROC-AUC, RMSE tai muut soveltuvat mittarit riippuen ongelmasta. Tulosten dokumentointi