korpuslingvistiikkaa
Korpuslingvistiikka on kielitieteen ala, joka tutkii kieltä suurten digitaalisten tekstikorpusten avulla. Sen keskeinen tavoite on kuvata kielen rakenteita, sanastoa ja käyttöä tilastollisesti sekä löytää säännönmukaisuuksia kielessä.
Korpukset ovat digitaalisia tekstijoukkoja (ja usein puheaineistoja), jotka on merkitty sekä metatiedoilla (kielitaso, lähde, aikaväli, rekisteri)
Korpuksessa tehtävät analyysit ovat usein kvantitatiivisia: frekvenssianalyysiä, kontekstianalyysiä (konkordanssit), kollokaatio- ja n-grammianalyysiä sekä tilasto- ja koneoppimismenetelmiä.
Käyttökohteita ovat kielitiede ja kielioppi sekä sovellukset kuten sanakirjien ja terminologian kehittäminen, käännösteknologia, puheentunnistus sekä hakukoneiden