normalisatiemethoden
Normalisatiemethoden zijn preprocessingstappen die de schaal of verdeling van gegevens aanpassen zodat variabelen met verschillende eenheden of spreiding beter met elkaar kunnen worden vergeleken en verwerkt door statistische modellen en machine learning-algoritmen. Het doel is om comparabiliteit te vergroten, conversies en convergentie van algoritmen te verbeteren en bepaalde aannames te ondersteunen. Normalisatie kan ook helpen bij het verminderen van de invloed van uitbijters en bij het stabiliseren van leerprocessen.
Enkele veelgebruikte normalisatiemethoden zijn:
- Min-max-normalisatie: lineair schalen van elke variabele naar een vast interval, meestal 0 tot 1, zodat alle
- Z-score standaardisatie: centeren op het gemiddelde en schalen naar de standaarddeviatie, waardoor de verdeling een gemiddelde
- Robuuste schaal: gebruik van mediaan en interkwantielafstand om uitbijters minder invloed te geven.
- Log- en Box-Cox-transformaties: verminderen scheefheid van verdelingen, vooral bij positief scheve data.
- Kwantielnormalisatie: afstemmen van de verdeling tussen verschillende steekproeven zodat ze identieke distributies hebben.
- Eenheidsvectorisering (normalisatie van vectoren): elke gegevenspunt wordt gedeeld door de lengte van de vector, bijvoorbeeld bij
Overige overwegingen: kies de methode afhankelijk van de data en het doel; normalisatie verwijdert vaak eenheden