Home

textkorpusar

En textkorpus är en stor samling av skriven eller talad text som används som primär resurs för språklig forskning och utveckling inom naturligt språkbehandling (NLP). Korpuset kan bestå av ett eller flera språk och varierar mellan råtext och text som har annoterats med olika lingvistiska märken, såsom tokenisering, POS-tagging, syntaktisk struktur eller named entities. Parallella korpusar innehåller motsvarande texter på flera språk och används särskilt inom maskinöversättning och tvärspråklig forskning.

Korpusens innehåll och format varierar. Vissa är monolinguala och fokuserar på ett enda språk, medan andra

Byggandet av textkorpusar innefattar insamling av material från olika källor, följt av prestanda- och kvalitetsarbete som

Användningar omfattar träning och utvärdering av NLP-modeller, språkvård och lingvistisk forskning, korpusbaserad lexikonutveckling samt analys av

är
flerspråkiga.
Annotationer
kan
ske
på
olika
nivåer,
från
ord-
och
meningstokenisering
till
mer
avancerade
strukturella
eller
semantiska
märken.
Metadata
som
källa,
tidsstämpel,
genre
och
språk
används
för
att
möjliggöra
filtrering
och
uppföljande
analys.
rensning
av
dubbletter,
normalisering
och
märkningsprocesser.
Både
automatiska
och
manuella
metoder
används
för
annotering.
Viktiga
överväganden
är
representativitet,
bias
och
etiska
frågor,
inklusive
upphovsrätt
och
skydd
av
personuppgifter.
stil,
genre
och
grammatik.
Tillgänglighet
varierar
mellan
öppna
korpusar
med
fria
licenser
och
proprietära
eller
licensbaserade
samlingar.
Exempel
på
svenska
resurser
finns
i
Språkbanken,
där
korpusar
som
svenska
dagstidningar
och
andra
annoterade
databaser
används
av
forskare
och
utvecklare.