analyysiputken
Analyysiputken on termi, jota käytetään kuvaamaan data-analyysissä käytettävää sarjaa prosessointivaiheita, joiden kautta raakatiedot muuntuvat tulkittavaksi tiedoksi. Putki määrittää, miten tiedot kerätään, puhdistetaan, esiprosessoidaan, mallinnetaan, arvioidaan ja raportoidaan.
Yleisiä vaiheita ovat tiedon keruu ja laadunvalvonta, esikäsittely ja puhdistus, ominaisuuksien valinta ja muokkaus, mallinnus ja
Suunnittelun keskeisiä periaatteita ovat modulaarisuus, toistettavuus ja läpinäkyvyys. Lisäksi on tärkeää huomioida tiedon provenance eli käsittelyhistorian
Käytännön toteutukset ja työkalut: analyysiputket rakentuvat usein ETL- tai ELT-työprosesseista. Orkestrointityökalut kuten Apache Airflow, Prefect, Luigi
Haasteet: datan laatu ja yhteensopivuus, skaalautuvuus, ylläpito ja versionhallinta sekä turvallisuus ja pääsyoikeudet. Lisäksi sidosryhmien kanssa