Korpusperustaiset
Korpusperustaiset lähestymistavat ovat kielitieteen ja kieliteknologian alueita, joissa kielianalyysi nojaa suurten elektronisten tekstikorpusten tarjoamaan todistettavaan aineistodataan. Korpukset voivat olla kirjoitettua tekstiä, puheaineistoa tai sekä monikielisiä kokoelmia, ja niihin voi sisältyä merkkitagauksia sekä muuta annotaatiota, joka helpottaa systemaattista analyysiä.
Menetelmät perustuvat kvantitatiivisiin ja tilastollisiin keinoihin: frekvenssianalyysiin, kollokaatioihin, kontekstianalyyseihin ja syntaktisiin rakenteisiin sekä semanttisiin suhteisiin. Tutkimus
Sovellukset kattavat kielianalyysin, sanakirjojen laatimisen, kieltenopetuksen sekä kielipolitiikan arvioinnin. Kieliteknologiassa korpukset vaikuttavat konekäännökseen, puheentunnistukseen, tekstin luokitteluun
Haasteina on representatiivisuus ja otannan mahdolliset virheet sekä kielten variaation huomioiminen. Datan lisensointi, annotaation laatu ja
Korpusperustaiset lähestymistavat kehittyivät 1980–1990-luvulla korpusten rakentamisen ja tilastollisen analyysin myötä, ja niistä on tullut keskeisiä sekä