dataskaalausmenetelmät
Dataskaalausmenetelmät ovat tekniikoita, joilla numeeriset ominaisuudet muutetaan samanlaiseen mittakaavaan, jotta koneoppimismallit oppivat helpommin ja optimoituminen on vakaampaa. Skaalaus ei yleensä muuta ominaisuuksien järjestystä tai niiden välisiä riippuvuuksia, vaan arvojen suuruutta ja jakautumista.
Yleisimmät menetelmät ovat min-max-skaalaus, jossa x' = (x - min) / (max - min) ja arvot rajoittuvat [0, 1]. Z-skorin
Kvantiilitransformaatiot, kuten QuantileTransformer, muuntavat jakauman halutuksi (esim. uniform tai Gaussian) säilyttäen ominaisuuksien järjestyksen. Power-transformit, kuten Box-Cox
Käyttötilanteet ja käytännöt: gradienttivetoiset mallit ja etäisyyspohjaiset algoritmit hyötyvät yleensä skaalaamisesta, kun taas puu- ja pinomallit