treeningandmestikus
Treeningandmestik on masinõppe mudelite treenimiseks kasutatav andmestik. Tavaliselt sisaldab see näiteid, kus on sisendomadused (feature’id) ja vastavad sihtmärgid ehk sildid. Supervised learningi puhul on andmestik märgistatud; juhendamata õpe kasutab peamiselt ainult sisendiandmeid.
Treeningandmestiku kvaliteet sõltub suurusest, mitmekesisusest ja sellest, kui hästi see peegeldab lahendatava probleemi eri olukordi. Olulised
Andmestiku jagamine treening-, valideerimis- ja testkomplektideks on tavaline praktika; mõnikord rakendatakse ka kross-valideerimist. Andmete kauanõudus ja
Eetika ja privaatsus: andmete kogumine ja kasutamine peab vastama asjakohasele õiguskeskkonnale (nt GDPR), hõlmama anonimiseerimist ning
Rakendused: treeningandmestikku kasutatakse klassifikatsioonis, regressioonis, ajalistes prognoosides, loomuliku keele töötlemises, arvutinägemises ning helindustöös.