datamärkning - Infinite Lexicon - Infinite Lexicon

datamärkning

Datamärkning, eller data annotation, är processen att tillsätta etiketter, taggar eller annan metadata till rådata. Syftet är att skapa strukturerad information som maskininlärningsmodeller kan använda som referens för igenkänning, klassificering eller span av innehåll. Genom märkningen får data en label som motsvarar den önskade utgången i ett tränings- eller testscenario.

Processen omfattar ofta definition av riktlinjer, insamling av relevanta data, själva annoteringen och kvalitetskontroll. Riktlinjerna beskriver

Vanliga typer av datamärkning inkluderar: bildmärkning (bounding boxes, polygoner, segmentering), textmärkning (namngivna entiteter, känslouttryck, relationer), ljudmärkning

Märkning används huvudsakligen för övervakad inlärning inom artificiell intelligens, särskilt i datorseende, naturlig språkbehandling och taligenkänning.

Etik och integritet är viktiga: data bör samlas och användas i enlighet med lagstiftning (t.ex. GDPR), och

i

Kvalitetsarbete

överenskommelse

(transkription,

taligenkänning,

ljudklassificering)

i

modellprecision,

generaliserbarhet

semi-automatisk

kostnadseffektivisering