datastreamingplattformar
Datastreamingplattformar är mjukvaru- eller molnbaserade system som möjliggör realtidsinsamling, bearbetning och distribution av händelsebaserade data över olika applikationer och tjänster. De hanterar kontinuerliga flöden av händelser (streams) där varje händelse publiceras av producenter och konsumeras av olika konsumenter eller stream processing-tjänster.
En grundläggande arkitektur består av producenter, ett meddelandebroker som lagrar händelser i loggar (append-only logg), och
Vanliga användningsområden inkluderar realtidsanalys och övervakning, kontinuerlig ETL och dataflöden till data lake eller datalager, samt
Vanliga egenskaper är låg latens, hög genomströmning, skalbarhet, fault tolerance och stöd för olika dataformat och
Exempel på datastreamingplattformar är Apache Kafka (och Confluent Platform), Apache Pulsar, Amazon Kinesis, Google Cloud Pub/Sub
Utmaningar innefattar utbildning, datakvalitet, säkerhet och integritetskrav, samt komplexitet i att hantera backpressure och misslyckade konsumenter.