tekstklassifisering
Tekstklassifisering er en oppgave innen naturlig språkbehandling der tekst automatisk tildeles en eller flere forhåndsdefinerte kategorier basert på innholdet. Oppgaven kan være flerkategori (multiklass) eller multilabel, og den kan brukes på korte tekster som e-postoverskrifter eller lange dokumenter. Vanlige oppgaver inkluderer emneklassifisering, sentimentanalyse, språk- eller genreidentifikasjon, og identifikasjon av formål eller intensjon.
Modellering bygger ofte på representasjoner av tekst som muliggjør forskjellene mellom dokumenter. Klassiske tilnærminger bruker bag-of-words
Anvendelser omfatter spam- og svindelfiltrering, nyhets- eller dokumentkategorisering, sentimentanalyse i kundeservice og markedsføring, moderering av innhold
Datasett som brukes i utvikling og evaluering inkluderer blant andre 20 Newsgroups, Reuters-21578, IMDB og AG
Utfordringer inkluderer språkvariasjon, flertydighet, domeneendringer, data- og biasproblemer, samt begrensninger i sampling og beregning. Forskning fortsetter