korpuslingvistiikassa
Korpuslingvistiikka on kielitieteen suuntaus, jossa kielen rakenteita ja vaihtelua tutkitaan suurten digitaalisten tekstikorpusten avulla. Korpukset voivat koostua sekä kirjoitetusta että puhuttua kielestä eri rekistereistä, aikakausista ja tyylilajeista. Tavoitteena on havaita yleisiä ilmiöitä, testata hypoteeseja sekä tarjota tilastollista evidenssiä sanojen, muotojen ja rakenteiden esiintymisestä.
Korpusten suunnittelu ja rakentaminen korostavat representatiivisuutta, kattavuutta ja läpinäkyvyyttä. Tekstikorpus voidaan merkitä eli annotoida esimerkiksi sanaluokkien
Analyyttiset menetelmät perustuvat frekvenssianalyysiin, kontekstuaaliseen tutkimukseen (konkordanssit), kollokaatioihin, n-grammeihin sekä tilastollisiin mittareihin kuten yhteisesiintymien ja riippuvuuksien
Sovelluksia ovat sanakirjojen ja oppimateriaalien laatiminen, kielentutkimus ja kielikontaktin sekä vaihtelun analyysi sekä luonnollisen kielen käsittelyn