Home

korpusbaserad

Korpusbaserad är ett adjektiv som används för att beskriva metoder eller forskning som bygger på korpusar – stora samlingar av autentiskt språkdata i digital form. Inom lingvistik och människolingspråksteknik används korpusbaserade metoder för att analysera verkligt språkbruk och för att beskriva ords betydelse, lexikon, syntaktiska mönster och semantik. De står i kontrast till regelbaserade eller preskriptiva metoder som bygger på manuellt konstruerade regler. Ett korpus kan vara monolingualt eller flerspråkigt och kan vara annoterat med till exempel POS-taggning, lemman, syntaktiska strukturer och named entities.

Korpusbaserad forskning innefattar vanligtvis steg som insamling av korpus, rensning, annotering (antingen manuellt eller automatiskt) och

Användningsområden och styrkor med korpusbaserade metoder är bland annat lexikografi, beskrivning av grammatik, språkpedagogik, automatisk översättning,

analys
med
statistiska
eller
maskininlärningsmetoder.
Vanliga
uppgifter
inkluderar
frekvensanalys,
kollokationer
och
n-gram,
POS-taggning
och
syntaktisk
parsing.
Inom
NLP
används
korpusbaserade
modeller
–
från
enkla
n-grammodeller
till
moderna
neurala
språkmodeller
–
som
lär
sig
från
data
snarare
än
från
handgjorda
regler.
information
retrieval,
sentimentanalys
och
taligenkänning.
Fördelar
inkluderar
att
de
speglar
verkligt
språkbruk,
fångar
variation
och
kontext
samt
har
god
skalbarhet.
Begränsningar
innefattar
beroende
av
korpusets
kvalitet
och
representativitet,
potentiella
biaser
samt
behov
av
högkvalitativ
annotering;
resultaten
påverkas
av
storlek
och
mångfald
i
korpuset
och
av
annoteringsscheman.