tekstiaineistoilla
Tekstiaineistoilla viitataan kirjoitettujen ja litteroitujen tekstien kokoelmiin, joita käytetään kielitieteellisessä ja tekstuaalisessa tutkimuksessa sekä digitaalisen humanismin sovelluksissa. Tekstiaineistot voivat koostua digitoiduista kirjoista, sanomalehdistä ja aikakauslehdistä, verkkosivustoista, blogikirjoituksista, foorumi- ja sosiaalisen median julkaisuista sekä puheesta litteroitua tekstiä. Aineistot voivat sisältää myös metadataa kuten julkaisuvuosi, kirjoittaja ja genre sekä kielellisiä merkintöjä kuten morfologiset ja syntaktiset tagit.
Usein puhutaan korpuksista, eli tekstikokoelmista, joihin on liitetty strukturoitua metadataa sekä kielenkäsittelyn merkintöjä kuten tokenointi, lemmatointi,
Käyttötarkoitukset ja menetelmät: Tekstiaineistoja sovelletaan tilastolliseen kielitieteeseen, korpusanalyysiin sekä data- ja koneoppimissovelluksiin. Ne mahdollistavat sanayhteyksien, ilmauksien
Haasteet ja eettiset näkökulmat: Tekstiaineistojen käyttöön liittyy tekijänoikeusrajoituksia, yksityisyydensuojaa sekä mahdollisia edustavuus- tai vinoumakysymyksiä. Laadunvarmistukseen kuuluu
Sovelluskentät ja saatavuus: Tekstiaineistoja säilytetään ja tarjotaan oppilaitosten, tutkimuslaitosten ja kansallisten datavarantojen kautta. Tutkijat voivat hakea,