Robustnormalisointi
Robustnormalisointi tarkoittaa datapisteiden skaalausta siten, ettei tulokseen vaikuta merkittävästi poikkeavat arvot. Se on tilastotieteessä ja signaalinkäsittelyssä käytetty menetelmä, joka pyrkii säilyttämään olennaisen rakenteen samalla vähentäen vaikutusta epätyypillisiin jakaumiin ja ulkopuolisiin havaintoihin. Yleisiä periaatteita ovat robustien tilastollisten mittareiden käyttö, kuten mediaani ja MAD (mediaanin poikkeama), sekä kvartiili- eli IQR-mittaus, sen sijaan että käytettäisiin perinteistä keskiarvoa ja keskihajontaa.
Tyypillisiä menetelmiä robustissa normalisoinnissa:
- Robust z-score, jossa arvo skaalataan (x - mediaani) / MAD, mahdollisesti kerroin 1.4826, joka vakioi tuloksen normaalijakaumaa vastaavaksi.
- RobustScaler-tyyppiset lähestymistavat, joissa arvojen skaalaus perustuu mediaaniin ja IQR:iin.
- Winsorization, jossa äärimmäiset arvot rajataan tietyille kvartiileille ennen lopullista normalisointia.
- Rank- tai kvantileihin perustuva normalisointi, jossa data muunnellaan siten, että ulkoiset poikkeamat vaikuttavat vähemmän.
Käyttökohteita ovat muun muassa biotieteet (genomiikka, proteomiikka, metabolomikka), koneoppiminen sekä sensoridatan sekä kuva- ja signaalinkäsittelyn sovellukset,
Edut sisältävät vähäisemmän ulkoisten poikkeamien vaikutus tuloksiin ja paremman vertailtavuuden eri aineistojen välillä. Rajoituksina ovat potentiaalinen