kielidatasarjat
Kielidatasarjat ovat kokoelmia kielidataa, jotka on koottu tutkimuksen ja kieliteknologian kehittämisen tarpeisiin. Ne käsittävät autenttista kielellistä aineistoa, kuten kirjoitettua tekstiä, puhuttua kieltä, käännettyjä tekstejä sekä niihin liittyvää metadataa, ja niihin usein liitetään annotaatioita kuten sanaluokituksia, syntaktisia rakenteita tai semanttisia rooleja. Termi viittaa sekä yksittäisiin kokoelmiin että sarjoihin, joita voidaan käyttää kielitieteelliseen analyysiin, luonnollisen kielen prosessoinnin (NLP) mallien kouluttamiseen sekä kielen dokumentointiin. Sarjat voivat olla sekä suomen- että muiden kielien erillisiä tai monikielisiä ja ne kattavat erilaisia rekistereitä, genrejä ja käyttötarkoituksia.
Kielidatasarjat muodostuvat kokoamis-, transkriptio-, annotaatio- ja laadunvarmistusvaiheiden kautta. Ne tallennetaan tietokanta- tai standardiformaatteihin kuten TEI-koodatut tekstit,
Kielidatasarjat ovat keskeisiä kieliteknologiassa ja tutkimuksessa sekä suomen että muiden kielten parissa, mahdollistamalla esimerkiksi korpuslingvistiikan, konekäännöksen,