Home

streamverwerking

Streamverwerking is een benadering van data verwerking waarbij gegevens continu worden verwerkt zodra ze binnenkomen, in tegenstelling tot batchverwerking waarin gegevens in grotere blokken worden samengebracht en later worden verwerkt. Bij streamverwerking worden gebeurtenissen vaak in real-time of near real-time geanalyseerd en doorgegeven aan passende opslag- of uitvoeringsdoeleinden.

Belangrijke concepten zijn onder meer streams en events, vensters (tijdgerelateerd zoals tumbling- en sliding windows, en

Infrastructuur en betrouwbaarheid spelen een cruciale rol bij grootschalige implementaties. Gedistribueerde verwerking, partitionering en backpressure zijn

Toepassingen van streamverwerking bevinden zich in real-time analytics, fraudedetectie, bewaking van systemen en IoT, clickstream analyse

sessievensters),
en
operatoren
zoals
map,
filter,
transform,
aggregatie
en
joins.
Veel
systemen
ondersteunen
stateful
verwerking,
waarbij
de
verwerker
toestand
bewaart
over
meerdere
gebeurtenissen
(bijv.
tellers,
gemiddelden),
en
stateless
verwerking,
waarbij
elke
gebeurtenis
onafhankelijk
wordt
behandeld.
Output
kan
naar
diverse
sinks
worden
geschreven,
zoals
dashboards,
waarschuwingen
of
databronnen
voor
verdere
verwerking.
gebruikelijke
kenmerken,
terwijl
foutafhandeling
en
precies
één
keer
verwerking
(exactly-once)
of
hoger-level
garanties
(at-least-once,
at-most-once)
bepalen
hoe
dubbele
verwerking
en
foutherstel
worden
afgehandeld.
Veel
platforms
bieden
uiteenlopende
semantics
en
integraties,
waaronder
Apache
Flink,
Apache
Spark
Streaming,
Apache
Kafka
Streams,
Apache
Storm
en
cloudgebaseerde
opties
zoals
Google
Dataflow.
en
continous
ETL-pijplijnen.
Uitdagingen
omvatten
latency-
en
volgordingsgaranties,
late
data,
onderscheid
tussen
event-time
en
processing-time,
en
schaalbaarheidsvraagstukken.