ordrepresentasjoner
Ordrepresentasjoner er numeriske vektorer som representerer ord i naturlig språkbehandling (NLP). De gjør det mulig å behandle språk i matematiske modeller ved å konvertere ord til tall og dermed tilrettelegge for maskinlæring. Representasjonene varierer i sparsitet og i hvor mye kontekst de tar hensyn til.
Historisk har one-hot-koding og TF-IDF vært vanlige sparsede metoder. One-hot-koding gir hvert ord en unik dimensjon
Statiske, tett embeddings-metoder som word2vec og GloVe produserer dense vektorrepresentasjoner der ord med lignende betydning ligger
Mer avanserte, kontekstuelle representasjoner som ELMo, BERT og GPT tilpasser ordvektorene basert på konteksten i setningen.
Ordrepresentasjoner brukes i en rekke NLP-applikasjoner, inkludert informasjonsinnhenting, maskinoversetting, spørsmålsbesvarelse og sentimentanalyse. Evaluering gjøres både intrinsisk