Giniepäpuhtaus
Giniepäpuhtaus, tai Gini-epäpuhtaus, on mittari käytetyissä päätöspuissa ja luokittelussa, jolla kuvataan solmun epäpuhtautta luokkien jakauman perusteella. Jos solmussa on k_j edustajat, joiden luokkajakauma on p_1, p_2, ..., p_k, Gini-epäpuhtaus lasketaan kaavalla G = 1 - sum_j p_j^2. Mitä epäpuhtaampi jakauma, sitä suurempi Gini-arvo; puhdas solmu antaa G = 0.
Gini-epäpuhtautta käytetään erityisesti CART-algoritmissa päätöspuiden rakentamisessa. Kun solmu jaetaan kahdeksi lapsisolmukseksi, lasketaan kummankin lapsen Gini-arvot ja
Laskennassa p_j edustaa kunkin luokan osuutta jakson havainnoista. Esimerkiksi binääriluokituksessa, jos toisen luokan osuus on p
Gini-epäpuhtaus vertaillaan usein entropiaan, toisena yleisenä epäpuhtausmittarina. Gini-epäpuhtaus on laskennallisesti nopeampi ja on herkempi suurille luokitusten
Historiallisesti mittari on nimetty Corrado Ginille, ja se on vakiintunut osa luokittelun ja regresi-puiden suunnittelua. Rajoitteina