Home

Datensätze

Datensätze (singular: Datensatz) bezeichnet in der Datenverarbeitung eine Einheit von Daten. Je nach Kontext kann damit ein einzelner Datensatz oder eine Gesamtheit von Daten gemeint sein. In der Praxis fällt der Begriff sowohl im Datenbankkontext als auch in der Statistik und im Data Science hinein.

Im relationalen Datenbankmodell entspricht ein Datensatz einer Zeile in einer Tabelle. Er fasst die Werte der

Datensätze lassen sich in gängigen Austauschformaten speichern und übertragen, etwa als CSV, JSON oder XML. Auch

Die Qualität von Datensätzen ist zentral: Vollständigkeit, Genauigkeit, Konsistenz, Aktualität und Nachvollziehbarkeit bieten Grundlage für verlässliche

Datensätze dienen der Analyse, dem Reporting, dem maschinellen Lernen oder der Replikation wissenschaftlicher Ergebnisse. Sie können

Attribute
der
Zeile
zusammen
und
wird
durch
einen
Primärschlüssel
eindeutig
identifiziert.
In
der
Statistik
und
im
Data
Science
wird
ein
Datensatz
oft
als
Sammlung
von
Beobachtungen
verstanden,
die
tabellarisch
organisiert
ist:
Zeilen
stehen
für
einzelne
Beobachtungen,
Spalten
für
Variablen
oder
Merkmale.
spezialisierte
Formate
wie
Parquet
oder
ARFF
kommen
je
nach
Anwendungsfall
vor.
Zusätzlich
enthalten
Datensätze
häufig
Metadaten,
die
Struktur
(Schema),
Herkunft,
Erhebungszeitraum
und
Qualitätsmerkmale
dokumentieren.
Analysen.
Prozesse
der
Datenbereinigung,
Validierung
und
Dokumentation
helfen,
Fehler
und
Inkonsistenzen
zu
reduzieren.
Datenschutz
und
Privatsphäre
beachten
oft
Anonymisierung
oder
Pseudonymisierung
personenbezogener
Daten
gemäß
geltenden
Vorschriften.
offen
zugänglich
oder
durch
Nutzungsbedingungen
eingeschränkt
sein.
Offene
Datensätze
verwenden
häufig
Lizenzen
wie
CC0
oder
CC
BY;
andere
Datensätze
unterliegen
kommerziellen
oder
datenschutzrechtlichen
Beschränkungen.