Home

Datenmenge

Datenmenge bezeichnet im Allgemeinen die Menge an Daten, die in einer bestimmten Quelle oder über einen Zeitraum hinweg erzeugt, gesammelt oder gespeichert wird. Die Datenmenge wird üblicherweise in Byte-Einheiten ausgedrückt, zum Beispiel Bytes, Kilobyte, Megabyte, Gigabyte oder Terabyte. In der Praxis wird der Begriff oft als Synonym für die Größe eines Datensatzes verwendet.

Ein Datensatz (Dataset) ist dagegen eine strukturierte oder semi- bzw. unstrukturiert zusammengesetzte Sammlung von Daten, die

Datenmenge bzw. Datensatz weisen unterschiedliche Merkmale auf, darunter Aufbau, Formate und Metadaten. Wichtige Kategorien sind Schema,

Anwendungsgebiete umfassen Statistik, wissenschaftliche Forschung, maschinelles Lernen und Business-Intelligence. Datensätze dienen als Trainings- oder Testdaten, Ausgangspunkt

typischerweise
einem
gemeinsamen
Thema
oder
einer
gemeinsamen
Messgröße
zugeordnet
ist.
Datensätze
dienen
in
der
Regel
der
Analyse,
dem
Training
von
Modellen
oder
der
Berichterstattung.
Es
gibt
strukturierte
Datensätze
(Tabellen
mit
Spalten
und
Zeilen),
semi-strukturierte
Datensätze
(JSON,
XML)
und
unstrukturierte
Datensätze
(Text,
Bilder,
Audio).
Datenformate
(CSV,
JSON,
Parquet,
relationale
Tabellen),
sowie
Qualitätseigenschaften
wie
Vollständigkeit,
Korrektheit
und
Konsistenz.
Die
Größe
einer
Datenmenge
wirkt
sich
auf
Speicherung,
Verarbeitung
und
Abfragen
aus
und
beeinflusst
oft
Entscheidungen
zu
Infrastruktur
und
Arbeitsabläufen.
für
Analysen
oder
Berichte.
Rechtliche
und
organisatorische
Aspekte,
wie
Datenschutz,
Urheberrecht
und
Datenherkunft
(Provenance),
sind
bei
der
Erhebung,
Speicherung
und
Nutzung
von
Datenmengen
ebenfalls
zu
berücksichtigen.