rinnakkaiskorpuksia
Rinnakkaiskorpukset ovat kaksikielisiä tai monikielisiä tekstikokoelmia, joissa sama sisältö on käännetty useampaan kieleen ja tekstit on yhdistetty lause- tai dokumenttitasolla. Näitä kokoelmia käytetään ensisijaisesti konekäännöksen kehittämiseen, käännösten arviointiin sekä kielitieteelliseen tutkimukseen.
Rinnakkaiskorpuksen rakentaminen sisältää useita vaiheita: keräyksen lähdekielestä ja käännöksistä, puhdistuksen ja normalisoinnin, segmentoinnin sekä tekstien yhdistämisen
Tunnetuimpia rinnakkaiskorpuksia ovat esimerkiks EA-tyyppiset suurten kieliparien kokoelmat kuten Europarl-korpukset sekä OpenSubtitles -kokoelmat, sekä YK:n ja
Käyttöalueita ovat erityisesti käännösmallien kouluttaminen tilastollisissa ja neurokielimallissa sekä käännösten laadun arviointi. Rinnakkaiskorpuksista voidaan myös eristää
Haasteisiin kuuluu tekijänoikeudet ja lisenssit, datan laatu ja kattavuus, sekä domain- ja tyylierojen aiheuttama eroavuus käännösten