tietojoukosta
Tietojoukko on joukko tietueita ja muuttujia, jotka on järjestetty tiettyyn rakenteeseen ja tarkoitettu tiedon tallentamiseen sekä分析iin. Yleisimmin tietojoukkoja käytetään taulukkomuodossa: jokainen rivi vastaa yhtä havaintoa ja jokainen sarake mittaavaa muuttujaa. Tietojoukot voivat sisältää sekä numeerista että luokittelevia arvoja.
Tietojoukkoja voidaan luokitella rakenteellisuuden perusteella. Rakenteellinen data noudattaa tiukkaa skeemaa, kuten CSV- tai TSV-tiedostoja. Semistrukturoitu data
Käyttökohteet kattavat tilastollisen analyysin, koneoppimisen ja tekoälyn, raportoinnin sekä päätöksenteon tukemisen. Datan valmistelu sisältää esikäsittelyn, puuttuvien
Laadunvarmistus ja metatiedot ovat keskeisiä. Metatiedot kuvaavat alkuperän, aikaleimat, mittayksiköt ja muuttujien kuvaukset. Henkilötietojen suojaus, anonymisointi
Jakaminen ja käyttöosa esim. avoin data -periaatteet: julkiset tietojoukot ovat vapaasti käytettävissä ja usein lisensoitu avoimesti