Home

randgegevens

Randgegevens is een term uit statistiek en datawetenschap die verwijst naar gegevens die op toeval berusten of via een willekeurig proces zijn gegenereerd. Randgegevens worden gebruikt als basis voor simulaties, het testen van algoritmen en het genereren van benchmarks. Er is een onderscheid tussen ware willekeurige gegevens, afkomstig uit fysieke processen zoals ruis of straling, en pseudo-willekeurige gegevens die door een deterministische generator zijn geproduceerd. Voor de meeste toepassingen volstaat pseudo-willekeurigheid, mits de generator correct wordt geparametreerd en reproduceerbaar is via een seed.

Generatie en kwaliteit

Randgegevens kunnen op verschillende manieren worden gegenereerd: door hardwarebronnen die echte willekeur leveren, of door softwarematige

Toepassingen en beperkingen

Toepassingen omvatten Monte Carlo-simulaties, bootstrap-resampling, experimenteel ontwerp via randomisatie, benchmarking van algoritmen en het genereren van

pseudo-willekeurigheid
(PRNG)
zoals
Mersenne
Twister,
PCG
of
Xoshiro.
Belangrijke
kwaliteitsaspecten
zijn
onafhankelijkheid
en
identieke
verdeling
(i.i.d.),
uniformiteit
en
reproduceerbaarheid.
Bij
wetenschappelijk
gebruik
is
het
essentieel
de
seed
vast
te
leggen
zodat
resultaten
herhaalbaar
zijn.
In
sommige
gevallen
worden
cryptografisch
veilige
RNG’s
gebruikt
wanneer
geheimhouding
of
beveiliging
vereist
is,
maar
randgegevens
uit
gewone
PRNG’s
zijn
doorgaans
niet
geschikt
voor
cryptografische
doeleinden.
kunstmatige
datasets.
Een
belangrijke
beperking
is
dat
de
kwaliteit
van
randgegevens
de
validiteit
van
conclusies
beïnvloedt:
bias
in
willekeur
of
onvoldoende
entropie
kan
vertekeningen
veroorzaken.
Seeds
en
generatorkeuze
beïnvloeden
reproduceerbaarheid
en
bias.
Voor
communicatieve
of
beveiligingsdoeleinden
is
vaak
aanvullende
zorg
nodig;
in
die
gevallen
gelden
specifieke
normen
voor
randomness
en
veiligheid.