korpusbaserad
Korpusbaserad är ett adjektiv som används för att beskriva metoder eller forskning som bygger på korpusar – stora samlingar av autentiskt språkdata i digital form. Inom lingvistik och människolingspråksteknik används korpusbaserade metoder för att analysera verkligt språkbruk och för att beskriva ords betydelse, lexikon, syntaktiska mönster och semantik. De står i kontrast till regelbaserade eller preskriptiva metoder som bygger på manuellt konstruerade regler. Ett korpus kan vara monolingualt eller flerspråkigt och kan vara annoterat med till exempel POS-taggning, lemman, syntaktiska strukturer och named entities.
Korpusbaserad forskning innefattar vanligtvis steg som insamling av korpus, rensning, annotering (antingen manuellt eller automatiskt) och
Användningsområden och styrkor med korpusbaserade metoder är bland annat lexikografi, beskrivning av grammatik, språkpedagogik, automatisk översättning,