ordbaserede
Ordbaserede metoder beskriver behandling af tekst, hvor ord er de grundlæggende enheder i stedet for tegn eller underenheder. I natural language processing og informationshåndtering refererer ordbasering til repræsentationer og modeller, der opererer på hele ord.
Typiske teknikker inkluderer bag-of-words (BoW), TF-IDF og ordembedding-modeller som Word2Vec og GloVe, der producerer vektorrepræsentationer for
Ulemperne inkluderer ofte store vokabularer, der fører til høj hukommelsesomkostning og sparsomme datasæt, samt problemer med
Sammenlignet med tegnbaserede eller subword-baserede tilgange giver ordbaserede modeller ofte bedre semantisk fortolkning for kendte ord,