Korpusarbete
Korpusarbete är inom lingvistik och digital humaniora den systematiska processen att samla, märka och analysera stora språkdatamängder, eller korpusar. Syftet är att studera hur språk används i verkliga sammanhang, dokumentera variation över tid och genre samt stödja utveckling av språkverktyg och språkutbildning. Arbete av detta slag är tvärvetenskapligt och bygger på dataintensiva metoder.
Korpusdata kan vara skrivna eller talade, eller blandningar av båda. Skrivna korpusar består av texter från
En kärnkomponent är annotering: morfologisk och syntaktisk tagging, ibland semantisk märksättning. Annotation följer oftast gemensamma standarder
Användningar av korpusarbete spänner över empirisk lingvistik, lexikonutveckling, NLP-tillämpningar, språkundervisning och digital humaniora. Öppna eller fritt
Utmaningar inkluderar upphovsrätt, integritet, urvalsbias och behov av standardisering för interoperabilitet. Kvalitetssäkring av annotation och tydlig