uutiskorporaatteja
Uutiskorporaatteja ovat kokoelmat uutisartikkeleita, joita on kerätty tutkimus- ja kehitystyötä varten. Korporaatit voivat sisältää artikkeleita useista lähteistä, kuten sanomalehdistä ja verkkouutispalveluista, sekä metatietoja kuten julkaisupäivämäärä, lähde, kirjoittaja ja kieli. Ne voivat olla monikielisiä tai yksikielisiä, ja niihin voi sisältyä sekä merkittyjä että merkitsemättömiä tekstejä. Tarkoituksena on tarjota suuria, ajallisesti laajoja tekstikokoelmia, joita voidaan käyttää luonnollisen kielen käsittelyssä, tiedonhausta, tiedon louhinnassa ja mediatutkimuksessa.
Uutiskorporaattien keräys tapahtuu usein verkkosivujen skannauksella, uutislähteiden kanssa tehtävillä kumppanuuksilla tai lisenssien alaisuudessa. Teksti voidaan esiprosessoida
Käyttökohteita ovat kielimallinnus, aihemallinnus, nimeämien entiteettien havaitseminen, konekäännökset sekä tiivistykset ja uutisien analyysi. Lisäksi uutiskorporaatteja käytetään
Oikeudelliset ja eettiset näkökulmat ovat keskeisiä: tekijänoikeudet, lisenssivaatimukset sekä yksityisyyden ja vahingollisen sisällön huomioiminen voivat rajoittaa
Esimerkkejä tunnetuista uutiskorporaateista ovat Reuters-21578, BBC News Dataset, AG News sekä NYT Annotated Corpus, joita käytetään