datasætbias
Datasætbias er en systematisk fejl i data, der opstår under indsamling, mærkning eller kuratering og får et datasæt til ikke at afspejle målpopulationen eller den aktuelle distribution. Som følge heraf kan modeller trænet på sådanne data vise skævheder og dårlig generalisering i praksis.
Typer inkluderer udvælgelsesbias (sampling bias), der opstår ved under- eller overrepræsentation af grupper; etiketbias ved inkonsekvente
Årsager inkluderer utilstrækkelig eller ikke-repræsentativ dataindsamling, afhængighed af få kilder og manglende dokumentation af dataproveniens.
Virkningerne kan være nedsat generalisering, forværret fairness og utilsigtet diskrimination i beslutninger og anbefalinger.
Eksempler: ansigtsgenkendelsessæt med begrænset demografi; medicinske datasæt fra enkelte hospitaler; eller sprogdata uden dialekter.
Forebyggelse og håndtering omfatter bredere og mere divers dataindsamling, stratificeret sampling, balance af klasser, reweighting, dataaugmentering
Datasætbias står i relation til begreber som datasætsskift og fairness i AI og kræver løbende data governance.