Home

språkdatabaser

Språkdatabaser er digitale samlinger av språklig data som er organisert for søk, analyse og gjenbruk. Innholdet kan omfatte ordlister og ordbøker, korpora av autentiske tekster, grammatikk- og morfologidata, fonetiske arkiver og etymologiske datasett. Slike databaser brukes i lingvistikken, språkvitenskap, språkteknologi og kulturarvsarbeid.

Typer og innhold: De vanligste typene inkluderer leksikalske databaser (ordbøker og leksikon), korpora som gir tilgang

Struktur, standarder og tilgang: Dataene er ofte lagret i formater som XML, JSON eller TEI-annoterte tekster,

Bruksområder og betydning: Språkdatabaser støtter forskning innen lingvistikken, utvikling av språksteknologi (for eksempel tekst- og talegjenkjenning,

Utfordringer og utvikling: Kvalitet, representativitet og dekning er sentralt, særlig for mindre språk. Standardisering av annotasjoner,

til
store
tekstsamlinger
for
frekvensanalyser
og
mønstergjenkjenning,
grammatikk-
og
morfologidatabaser,
samt
fonetiske
arkiver
og
semantiske
nettverk.
Mange
prosjekter
kobler
disse
ressursene
sammen
med
metadata
og
lenker
for
å
lette
søk
og
sammenligning
på
tvers
av
språk
og
dialekter.
med
tilhørende
metadata
som
språk,
kilde,
periode
og
annotasjonsnivå.
Tilgjengelighet
varierer
fra
åpne,
lisensierte
ressurser
til
proprietære
databaser.
API-er
og
bruksrettigheter
avgjør
hvor
og
hvordan
dataene
kan
brukes.
maskinoversettelse),
språkopplæring
og
bevaring
av
språk
og
kulturarv.
De
muliggjør
kvantitative
analyser
av
språkbruk,
historiske
endringer
og
språklig
mangfold.
interoperabilitet
og
datakvalitetskontroll
er
pågående
arbeid.
Fremtidig
utvikling
retter
seg
mot
FAIR-prinsippene,
lenking
mellom
ressurser
og
økt
bruk
av
åpen
kilde
og
samarbeid.