Referenzdatensätze
Referenzdatensätze bezeichnet man in der Datenwissenschaft als standardisierte Datensammlungen, die als Maßstab, Benchmark oder Validierungsgrundlage dienen. Sie ermöglichen reproduzierbare Ergebnisse, erleichtern den Vergleich von Algorithmen und Verfahren und unterstützen die Beurteilung der Leistungsfähigkeit von Modellen unter kontrollierten Bedingungen.
Typische Merkmale von Referenzdatensätzen sind eine klare Aufgabenstellung (z. B. Klassifikation, Regression, Segmentierung), definierte Merkmale und
Verwendungszwecke reichen von Benchmarking und Validierung über Kalibrierung bis hin zur Lehre. Sie dienen dem methodischen
Herausforderungen bestehen in Verzerrungen, mangelnder Repräsentativität, Datenschutzbedenken, veralteten Daten und Lizenzrestriktionen. Die Aktualität der Datensätze sowie
Beispiele für bekannte Referenzdatensätze sind Iris (Klassifikation), MNIST und CIFAR-10/100 (Bilddaten), ImageNet (großer Benchmark), Titanic (Überlebensvorhersage)