språkdatabaser

Språkdatabaser er digitale samlinger av språklig data som er organisert for søk, analyse og gjenbruk. Innholdet kan omfatte ordlister og ordbøker, korpora av autentiske tekster, grammatikk- og morfologidata, fonetiske arkiver og etymologiske datasett. Slike databaser brukes i lingvistikken, språkvitenskap, språkteknologi og kulturarvsarbeid.

Typer og innhold: De vanligste typene inkluderer leksikalske databaser (ordbøker og leksikon), korpora som gir tilgang

Struktur, standarder og tilgang: Dataene er ofte lagret i formater som XML, JSON eller TEI-annoterte tekster,

Bruksområder og betydning: Språkdatabaser støtter forskning innen lingvistikken, utvikling av språksteknologi (for eksempel tekst- og talegjenkjenning,

Utfordringer og utvikling: Kvalitet, representativitet og dekning er sentralt, særlig for mindre språk. Standardisering av annotasjoner,

frekvensanalyser

mønstergjenkjenning,

morfologidatabaser,

annotasjonsnivå.

Tilgjengelighet

bruksrettigheter

maskinoversettelse),

språkopplæring

interoperabilitet

datakvalitetskontroll

FAIR-prinsippene,