innholdsdatasett
Et innholdsdatasett er en strukturert samling av innholdselementer som brukes i utvikling, testing og evaluering av informasjons- og medieapplikasjoner. Det kan omfatte tekst, bilder, lyd, video eller andre mediatyper, sammen med tilhørende metadata og annotasjoner.
Hvert element består av innholdet og metadata som tittel, språk, forfatter, dato, kilde og lisens. Metadata kan
Formålene med innholdsdatasett er mange: trening av maskinlæringsmodeller, utvikling av søker- og anbefalingssystemer, evaluering av algoritmer,
Standardisering og interoperabilitet er sentralt. Derfor brukes ofte Dublin Core, schema.org, JSON-LD eller RDF for å
Etikk og rettigheter må vurderes. Innhold kan være opphavsrettslig beskyttet, og personopplysninger kan forekomme. Anonymisering, samtykke
Kvalitet og representativitet blir også vurdert. Vurderinger inkluderer dekning av domene, variasjon i innhold og konsistens
Tilgjengelighet varierer; noen datasett er åpne og frie under åpne lisenser, mens andre har begrensninger knyttet