derivedominaisuus
Derivedominaisuus on termi, jota käytetään kuvaamaan ominaisuutta tai muuttujaa, joka on johdettu olemassa olevista havainnoista tai mittauksista jonkin laskutoimituksen, transformoinnin tai aggregoinnin avulla. Tämä eroaa suoraan mitatuista alkuperäisistä ominaisuuksista, jotka kuvaavat havaittua tilaa sellaisenaan. Derivedominaisuuksia muodostetaan yleisesti data-analysoinnissa ja koneoppimisessa feature engineering -prosessin yhteydessä.
Derivedominaisuudet voivat parantaa mallin suorituskykyä ja toiminnallisuutta tarjoamalla lisäinformaatiota, jota alkuperäiset tiedot eivät yksinään sisällä. Ne
- Aikaleimasta saadaan vuosi, kuukausi, päivä tai viikonpäivä.
- Geokoordinaatteista lasketaan etäisyys kohteeseen tai keskusta.
- Kertolasku, osamäärä tai suhdeluku kahden ominaisuuden välillä.
- Tekstistä mitataan sanamäärä tai frekvenssit; tarvittaessa voidaan tuottaa muut tilastolliset mittarit.
- Transformoinnit: log, neliöjuuri, standardointi.
- Aggregointi: ryhmittely ja tilastolliset mittarit kuten keskiarvo, mediaani, hajonta.
- Interaktiomiset ominaisuudet: kahden ominaisuuden tulo tai suhde.
- Vältä tietovuotoa ja liiallista monimutkaisuutta; seuraa mallin suorituskykyä.
Derivedominaisuudet ovat keskeinen osa modernia data-analyysiä, sillä ne voivat kasvattaa ennusteiden luotettavuutta ja tulkittavuutta, kun ne