DatenSynthese
Datensynthese bezeichnet den Prozess der Generierung künstlicher Daten, die statistisch den realen Datensätzen ähneln, ohne identisch reale Einträge zu enthalten. Ziel ist es, analytische oder protokollbezogene Arbeiten zu ermöglichen, ohne sensitive Informationen offenzulegen.
Methoden: Es gibt regelbasierte Ansätze, die Wahrscheinlichkeitsmodelle der bestehenden Daten schätzen und neue Stichproben erzeugen. Fortschritte
Anwendungen: Datensynthese wird für Datenschutz, Datenaustausch, maschinelles Lernen (Modellentwicklung, Transferlernen), Softwaretests, Simulation seltener Ereignisse und Szenarioanalysen
Bewertung: Die Qualität synthetischer Daten bemisst sich an der Ähnlichkeit der Verteilungen (z. B. KL-Divergenz, Earth
Herausforderungen: Risiken von Informationslecks, Verzerrungen oder Überanpassung, Repräsentationslücken, Bias-Verstärkung, regulatorische Anforderungen; die richtige Balance zwischen Nützlichkeit