korpusanalyyseja
Korpusanalyyseja tarkoittaa suurten tekstikorpusten systemaattista tutkimusta kielen käytön kuvaamiseksi ja ymmärtämiseksi. Korpusten avulla voidaan tuottaa tilastollisia kuvauksia sanaston yleisyydestä, sanojen yhteydestä, kollokaatioista sekä syntaktisista ja semanttisen rakenteista. Korpusanalyyseja sovelletaan kielitieteessä, sanakirjatyössä ja luonnollisen kielen käsittelyssä (NLP).
Korpus on digitaalisessa muodossa oleva tekstiaineisto, joka voi sisältää metatietoa kuten kieli, genre, kirjoitusvuosi ja lähde.
Yleisimmät menetelmät ja tulokset kattavat frekvenssianalyysit, konkordanssit (KWIC), kollokaatioanalyysit sekä n-gram- ja avainsana-analyysit. Tuloksia esitetään usein
Työprosessi koostuu suunnittelusta, aineiston keruusta ja valinnasta, puhdistuksesta sekä annotaatiosta, analyysistä ja raportoinnista. Työkaluina käytetään muun