Testiaineistoja
Testiaineistoja ovat tilastollisissa tutkimuksissa sekä ohjelmistojen ja koneoppimismallien arvioinnissa käytettäviä datakokonaisuuksia, joiden tarkoituksena on mitata järjestelmän suorituskykyä uuden tiedon näkökulmasta. Ne erotetaan kehitys- ja koulutusdatoista sillä, että testiaineistoa käytetään mallin ennusteiden tai toimintojen arviointiin eikä sen oppimiseen.
Testiaineistot voivat olla keinotekoisesti tuotettuja (synthetic) tai todellisuudesta kerättyjä dataa. Ne voivat olla merkittyjä (labelled) tai
Laatu ja edustavuus ovat keskeisiä: puutteellinen kattavuus tai vinoumat voivat johtaa harhaanjohtaviin tuloksiin. Tietosuoja ja yksityisyyden
Testiaineistojen hallinta sisältää datan keräämisen ja valmistelun, annotoinnin sekä dokumentoinnin. Ne tulisi versionoida ja tallentaa siten,