Treeningandmed
Treeningandmed on masinaõppe mudelite treenimiseks kasutatav andmestik, mis sisaldab sisendeid ja tihti vastavaid sihtmärke või märgiseid. Need andmed võimaldavad mudelil õppida seoseid ja mustreid ning teha hilisemas töötsüklis prognoose või klassifikatsioone. Tavaliselt jaguneb treeningandmestik treening-, valideerimis- ja testkomplektideks, mis aitavad arendustegevuses hinnata mudeli üldistust.
Treeningandmed võivad olla märgistatud (järelevalvega ehk supervised learning) või märgistamata (järelevalveta ehk unsupervised learning). Märgistatud andmed
Kvaliteetne treeningandmestik peaks peegeldama tegelikku kasutusvaldkonda ning olema piisavalt mitmekesine, et vähendada valimiviga ja suurendada mudeli
Andmed võivad sisaldada tundlikke isikuandmeid, seetõttu on oluline privaatsus ja õiguspärasus: anonüümsus, nõusolek ja litsentsitingimused. Ettevalmistus