textkorpusar
En textkorpus är en stor samling av skriven eller talad text som används som primär resurs för språklig forskning och utveckling inom naturligt språkbehandling (NLP). Korpuset kan bestå av ett eller flera språk och varierar mellan råtext och text som har annoterats med olika lingvistiska märken, såsom tokenisering, POS-tagging, syntaktisk struktur eller named entities. Parallella korpusar innehåller motsvarande texter på flera språk och används särskilt inom maskinöversättning och tvärspråklig forskning.
Korpusens innehåll och format varierar. Vissa är monolinguala och fokuserar på ett enda språk, medan andra
Byggandet av textkorpusar innefattar insamling av material från olika källor, följt av prestanda- och kvalitetsarbete som
Användningar omfattar träning och utvärdering av NLP-modeller, språkvård och lingvistisk forskning, korpusbaserad lexikonutveckling samt analys av