Datenauswahl
Datenauswahl bezeichnet den Prozess, Datenbestände so zu fokussieren, dass relevante Datensätze, Varianten oder Merkmale für eine Analyse oder Modellierung ausgewählt werden. Sie umfasst die Festlegung der Zielpopulation sowie Einschluss- und Ausschlusskriterien, ggf. die Bestimmung von Stichprobengrößen und Zeiträumen.
In der Praxis dient Datenauswahl der Effizienz, Relevanz und der Reduktion von Rauschen. Sie unterscheidet sich
Typen der Datenauswahl reichen von Zufalls- und Schichtstichproben über systematische Stichproben bis zu gezielter oder Purposive-Auswahl.
Anwendungsgebiete finden sich in Forschung und Marktforschung sowie im maschinellen Lernen, wo Datensätze für Training, Validierung