Home

datasjøer

Datasjøer er en sentralisert lagringsplass for store mengder rå data fra ulike kilder, der dataene lagres i sitt opprinnelige format. Hovedformålet er å støtte utforskning, analyse og maskinlæring ved å gjøre data tilgjengelig for senere behandling uten forhåndsbestemt struktur.

Datasjøer inneholder ofte strukturerte data fra databaser, semi-strukturerte data som JSON og XML, og ustrukturerte data

Datasjøer skilles fra tradisjonelle data warehouses. I en database er data ofte predefinert og optimalisert for

Utfordringer inkluderer styring, datakvalitet, sikkerhet og dataløp. Effektiv bruk krever god metadataforvaltning, datasøk, tilgangskontroller og tydelig

Vanlige teknologier og plattformer inkluderer Hadoop-økosystemet, Apache Spark og lagringsløsninger som Amazon S3, Azure Data Lake

som
bilder
og
lyd.
De
benytter
vanligvis
schema-on-read,
slik
at
skjemaet
bestemmes
når
dataene
hentes
ut.
Lagringen
er
ofte
kostnadseffektiv
og
skalerbar,
spesielt
i
skyen.
rapportering,
mens
datasjøen
lagrer
rådata
for
bredere
analyser
og
datavitenskap.
Begrepet
lakehouse
har
vokst
frem
som
en
måte
å
kombinere
fleksibiliteten
til
datasjøer
med
kontroll
og
ytelse
i
lagringsløsninger.
dataeieransvar.
Data
governance
og
livssyklusstyring
er
viktige
for
pålitelighet
og
samsvar.
Storage
og
Google
Cloud
Storage.
Inngangsprosesser
skjer
ofte
med
ELT-tilnærminger
og
verktøy
som
Apache
Kafka,
Apache
NiFi
og
AWS
Glue.