Home

korporaalitutkimusta

Korporaalitutkimus on kielitieteen ja kielellisen laskennan ala, joka tutkii suuria digitaalisia tekstiaineistoja eli korporaatteja. Sen tavoitteena on kuvata kielen tilaa ja vaihtelua sekä löytää tilasto- ja rakenteellisia säännönmukaisuuksia käytännön kielessä.

Korporaalitutkimuksessa korporaatti suunnitellaan huolellisesti: mukaan otetaan ajallinen ja genre-spesifinen kattavuus sekä metatiedot kuten kieli, lähde ja

Korporaaleja analysoidaan frekvenssien, kollikaatioiden, kontekstien ja kielellisten rakenteiden avulla. Tällä tavoin voidaan tutkia sanaston kehitystä, rekisterieroja,

Käytännön katsantokannat korostavat eettisiä ja lainsäädännöllisiä kysymyksiä: aineistojen tekijänoikeudet, yksilön yksityisyys, anonymisointi sekä datan edustavuus ja

---

tekijänoikeus.
Korpus
voi
olla
yleiskorporaatti,
erikoiskorporaatti
(esim.
kirjallisuus,
lehdistökieli)
tai
rinnakkaiskorporaatti
useilla
kielillä.
Tekstiaineistoa
käsitellään
ja
merkitään,
ja
tyypillisiä
vaiheita
ovat
tokenointi,
sanaluokitettu
lemmatisointi
sekä
syntaktinen
jäsentäminen.
kielimuutoksia
sekä
soveltaa
tuloksia
luonnollisen
kielen
käsittelyyn,
kielisanakirjoihin
ja
kielikoulutukseen.
Korporaalitutkimus
tukee
sekä
teoreettista
kielitiedettä
että
soveltavaa
kehitystyötä,
kuten
hakukoneiden
ja
konekäännöksen
parantamista.
vinoumien
hallinta.
Infrastruktuuri
ja
standardointi
mahdollistavat
aineistojen
jakamisen
ja
toistettavuuden:
annotointistandardit,
metatietojen
hallinta
sekä
avoimet
työkalut.
Kehitys
jatkaa
kohti
monikielisiä
ja
monimuotoisia
korporaaleja
sekä
puhe-
ja
verkkokorporaaleja.