Dataetiketöinti
Dataetiketöinti on prosessi, jossa data merkitään tai luokitellaan siten, että koneoppimismallit voivat oppia niistä. Tavoitteena on tuottaa annotaatioita, kuten luokkia, kohteiden sijainteja tai tekstisisältöön liittyviä etikettejä, joita mallit voivat käyttää koulutuksessa. Merkinnät voivat koskea erilaisia modaliteetteja, kuten kuvia, tekstiä, ääntä tai videota.
Tyypillisiä annotoitavia tehtäviä ovat kuvatiedon luokittelu, kohdealueiden (raja-alueiden) tunnistus, segmentointi sekä avainsanojen tai entiteettien merkitseminen. Tekstiä
Prosessi koostuu ohjeistuksen laatimisesta, annotaattoriryhmän kokoamisesta ja laadunvarmistuksesta. Jokaiselle datakokonaisuudelle määritellään annotointiskeema ja luokitukset. Annoittajat merkitsevät
Eettiset ja oikeudelliset näkökohdat korostuvat turvallisuus, yksityisyys ja suostumukset huomioivassa datan keruussa ja merkinnässä. Biasin vähentäminen