annotointiprosessi
Annotointiprosessi on prosessi, jossa data merkitään tai luokitellaan tarkoituksenmukaisilla merkinnöillä, jotta koneoppimismallit voivat oppia niistä. Merkinnöillä voidaan kuvata esimerkiksi sisällön luokkaa, objektien sijainteja tai ajallisia tapahtumia. Annotointia käytetään monenlaisessa datassa, kuten tekstissä, kuvissa, äänitteissä ja videoissa, ja sen lopputuotteena syntyy opetusdataa koneoppimiselle.
Prosessin yleinen kulku koostuu datan keräämisestä ja esikäsittelystä, ohjeistuksen laatimisesta annotaattoreille, annotaattoreiden koulutuksesta, itse merkinnästä sekä
Merkintätyypit riippuvat datan modaalisuudesta: tekstiin voidaan lisätä luokituksia ja nimeäviä entiteettejä; kuviin ja videoihin voidaan piirtää
Laatuvarmistukseen kuuluu annotaattoreiden välinen yhtenäisyys, ohjeistuksen jatkuva tarkentaminen sekä virheiden analysointi. Gold standard -merkintöjä voidaan käyttää