corporaonderzoek
Corporaonderzoek, ook wel corpuslinguïstiek genoemd, is een descriptieve tak van taalkunde die zich bezighoudt met het systematisch bestuderen van taalgebruik aan de hand van grote elektronische verzamelingen taaldata, oftewel corpora. Door corpora te analyseren kunnen onderzoekers patronen van frequentie, variatie en combinatoriële structuren in authentic tekst- en spraakdata beschrijven en verklaren.
Een corpus kan geschreven taal of gesproken taal bevatten, en general of domeinspecifiek zijn. Naast monolinguale
In de praktijk wordt een corpus vaak geannoteerd: part-of-speech tags, lemma's, syntactische boomstructuren, named entities, of
Toepassingen zijn onder meer taalkundig onderzoek, lexicografie, taalonderwijs, vertaalwetenschap en training van natuurlijke taalverwerkingstoepassingen. Corpusonderzoek is
Belangrijke aandachtspunten zijn representativiteit en bias, auteursrechten en privacy, datakwaliteit en transparantie van annotaties. Verantwoorde corpusbouw