dataminingtekniikoita
Dataminingtekniikoita ovat menetelmiä, joilla suurista tietomassoista etsitään piileviä malleja, säännönmukaisuuksia ja poikkeavuuksia. Ne muodostavat osan data-analytikan työkalupakkia ja soveltuvat liiketoimintaan, tutkimukseen sekä tekniseen kehitykseen. Työn keskiössä on liiketoiminnallinen tavoite ja datan keräys sekä valmistelu.
Keskeiset tekniikat voidaan jakaa luokitteluun, regressioon, klusterointiin, assosiaatiosääntöihin sekä aikasarjojen louhintaan. Luokittelussa malli ennustaa luokan (esim.
Prosessi noudattaa usein CRISP-DM -standardia: liiketoiminnan tavoitteiden ymmärtäminen, datan ymmärtäminen, datan valmistelu, malli, arviointi ja käyttöönotto.
Arvioinnissa käytetään mittareita kuten luokittelun tarkkuus sekä herkkyys (recall) ja F1, ROC-AUC; regressiossa RMSE ja MAE
Sovelluskohteita ovat markkinointi ja suositukset, petosten torjunta, teollinen analytiikka sekä terveystiede. Eettiset kysymykset korostuvat: tietosuoja, yksityisyys,