dataselectie
Dataselectie is het proces waarbij uit een grotere verzameling data een subset wordt gekozen die voldoet aan vooraf vastgestelde criteria en geschikt is voor een bepaald doel, zoals analyse, rapportage of modellering. Het doel is relevante en kwalitatief passende data te gebruiken en tegelijk praktische beperkingen zoals tijd en rekenkracht te respecteren.
Bij dataselectie worden criteria gedefinieerd zoals relevantie voor de onderzoeksvraag, volledigheid, nauwkeurigheid, representativiteit en privacy. Een
Er bestaan verschillende methoden om data te selecteren. Steekproeftechnieken zoals willekeurige steekproef, gestratifieerde steekproef, clustersteekproef en
Het proces vereist duidelijke documentatie van de selectiecriteria, bronnen en transformaties, zodat de dataset reproduceerbaar is
Uitdagingen en risico’s zijn onder meer bias door onrepresentatieve data, over- of onderselectie, privacy- en governancevraagstukken
Toepassingen van dataselectie komen voor in wetenschappelijk onderzoek, bedrijfsanalyse, verslaglegging en het trainen van machine learning-modellen,
Zie ook data governance, data cleaning, steekproeftechnieken, privacybescherming.
---