tekstklassifisering - Infinite Lexicon - Infinite Lexicon

tekstklassifisering

Tekstklassifisering er en oppgave innen naturlig språkbehandling der tekst automatisk tildeles en eller flere forhåndsdefinerte kategorier basert på innholdet. Oppgaven kan være flerkategori (multiklass) eller multilabel, og den kan brukes på korte tekster som e-postoverskrifter eller lange dokumenter. Vanlige oppgaver inkluderer emneklassifisering, sentimentanalyse, språk- eller genreidentifikasjon, og identifikasjon av formål eller intensjon.

Modellering bygger ofte på representasjoner av tekst som muliggjør forskjellene mellom dokumenter. Klassiske tilnærminger bruker bag-of-words

Anvendelser omfatter spam- og svindelfiltrering, nyhets- eller dokumentkategorisering, sentimentanalyse i kundeservice og markedsføring, moderering av innhold

Datasett som brukes i utvikling og evaluering inkluderer blant andre 20 Newsgroups, Reuters-21578, IMDB og AG

Utfordringer inkluderer språkvariasjon, flertydighet, domeneendringer, data- og biasproblemer, samt begrensninger i sampling og beregning. Forskning fortsetter

TF-IDF-vektorer

maskinlæringsalgoritmer

støttevektormaskiner

end-to-end-løsninger,

transformatorbaserte

representasjoner.

kryssvalidering

generalisering.