koolitusandmed
Koolitusandmed on kogum andmeid, mida kasutatakse masinõppemudeli arendamisel ja koolitamisel. Need koosnevad tavaliselt sisendandmetest (omadused, funktsioonid) ja vastusest (märgendatud näidud), kuid võivad sisaldada ka kirjeldavaid metaandmeid. Koolitusandmete eesmärk on õpetada mudelile tuvastama seoseid ja mustreid ning tegema prognoose. Aine jagatakse sageli treening-, valideerimis- ja testandmeteks, et hinnata mudeli üldistuvust ja järeltöötlust.
Allikad võivad olla avalikud andmekogud, ettevõtte sisemised andmestikud või sünteetiliselt genereeritud andmed. Õiguspärasus ja eetika on
Enne koolitamist tehakse sageli andmete eeltöö: puhastamine, puuduvate väärtuste käsitlemine, normaliseerimine, märgendamine ning mõnikord omaduste valik
Koolitusandmete haldus hõlmab dokumentatsiooni, litsentsitingimuste ja jälgitavuse tagamist. Eetilised kaalutlused hõlmavad andmete kaasatust ja mitmekesisust, demograafiliste
Kokkuvõttes on koolitusandmed masinõppe arenduse keskne komponent, mis määrab mudeli jõudluse, üldistusvõime ja vastupidavuse erinevatele kasutusjuhtudele.