Datatieteessä
Datatiede on monitieteinen ala, joka tutkii datasta saadun tiedon tuottamista, ymmärtämistä ja hyödyntämistä päätöksenteossa. Se yhdistää tilastotieteen, tietojenkäsittelyn sekä kommunikaation taidot ja kattaa sekä kuvailevan analyysin että ennustavan mallintamisen. Keskeisiä käsitteitä ovat data, ominaisuudet (featuret), mallit sekä arviointi, sekä tulosten tulkinta ja viestittäminen.
Prosessi alkaa ongelman määrittämisestä sekä datan keräämisestä ja yhdistämisestä eri lähteistä. Tämän jälkeen seuraavat esikäsittely, puhdistus
Käytännössä datatiede hyödyntää ohjelmointikieliä kuten Python ja R, tietokantoja SQL sekä työkaluja kuten Jupyter-notebookit ja visuaaliset
Haasteina ovat datan laatu ja saatavuus, biasin tunnistaminen, mallien tulkittavuus sekä eettiset kysymykset kuten yksityisyys, turvallisuus