testiaineisto
Testiaineisto on joukko dataa, jota käytetään testaukseen ja evaluointiin eri konteksteissa, kuten ohjelmistojen, järjestelmien sekä tutkimusmenetelmien validoinnissa. Sen tarkoituksena on mahdollistaa mittaaminen, vertailu ja toistettavuus sekä tarjota realistinen, kontrolloitu ympäristö testitilanteissa.
Testiaineistoja voidaan luokitella useisiin tyyppeihin: syntetisoitua dataa, anonymisoitua tai käsiteltyä todellista dataa sekä valmiisiin benchmark- tai
Testiaineiston hankinta tapahtuu usein kolmella tavalla: julkisten tai lisensoitujen datasetien hyödyntäminen, datatuotanto ohjelmallisesti tai simuloinnilla sekä
Laatuvaatimukset sisältävät relevanssin, kattavuuden, oikeellisuuden ja toistettavuuden. Testiaineisto tulisi dokumentoida: lähde, keruumenetelmät, aikaleimat, koon ja jakauman
Haasteet ja huomioitavat näkökulmat
Haasteita ovat esimerkiksi harha, tietosuoja, datan vanheneminen ja datan skaalautuvuus. Hyvä käytäntö on avoin metadata, lisenssien