Korpuseanalüüsides
Korpuseanalüüsid viitavad keeleteaduses tekstiandmete (korpus) kasutamisele, et kirjeldada ja mõõta keelekasutust suurel esinduslikul andmekogul. Need uuringud kombineerivad kvantitatiivseid statistilisi meetodeid ja sageli ka kvalitatiivset kontekstuaalset tõlgendust.
Korpused kogutakse erinevatest allikatest ja nende kavandamisel arvestatakse suurust, ajahorisonti ja žanride esindatust. Paljud korpused on
Peamised mõõdikud on sagedus, dispersioon ja kollokatsioonid. Sõnade ja fraaside kooskasutust hinnatakse statistiliste meetoditega nagu MI
Korpuseanalüüsid on kasulikud keelekirjanduses ja terminoloogias, keeleõppe materjalide arendamisel ning keelekasutuse üldiste mustrite tõlgendamisel. Need võimaldavad
Piirangud hõlmavad esinduslikkuse puudulikkust, andmete kallutatust, märgendusvigu ning ajastuslike muutuste mõju. Tulemuste tõlgendamisel tuleb arves võtta
Tööriistad ja ressursid hõlmavad AntConc, Sketch Engine ning Pythonipõhiseid tööriistu nagu NLTK ja spaCy. Korpuste kogumiseks