korpusaineistoja
Korpusaineistot (kielikorpukset) ovat järjestäytyneitä kielidatan kokoelmia, jotka sisältävät kirjoitettua tekstiä ja/tai puheaineistoja. Ne ovat keskeisiä kielitieteellisessä tutkimuksessa sekä luonnollisen kielen käsittelyssä (NLP), sanastotyössä ja kielenopetuksessa.
Korpusaineistot voivat olla tekstiaineistoja tai puheaineistoja. Tekstiainesta koostuu kirjoitetusta aineistosta, kuten kirjallisuudesta, sanomalehdistä ja verkkosisällöistä. Puheaineistot
Korpusaineistoihin liittyy metatietoja: kieli, genre, aikaväli, lähde ja tekijänoikeustiedot. Annotaatiot voivat sisältää sanaluokkien merkinnät, lemmatoinnin, nimien
Keräys ja laadunvarmistus ovat olennaisia: datan hankinta toteutetaan eettisten periaatteiden ja tekijänoikeuksien puitteissa, ja usein kerätään
Käyttö ja saatavuus vaihtelevat: julkiset korpora ovat usein saatavilla tutkimuslaitosten kautta tai avoimena datana, kun taas