tietojoukkojen
Tietojoukko on havaintojen tai mittaustulosten kokoelma, jolla on sama rakenne. Yleensä rivit vastaavat yksittäisiä havaintoja ja sarakkeet muuttujia tai ominaisuuksia. Jokaisella rivillä on arvoja kullekin muuttujalle, ja kokoelma mahdollistaa tilastollisen analyysin sekä mallinnuksen.
Tietojoukkoja käytetään muun muassa tilastollisiin ja tekoälyyn liittyviin tehtäviin. Ne voivat olla tabulaarisia tietojoukkoja, kuvatiedostoja, ääniteaineistoja
Laatu ja valmistelu ovat olennaisia: puuttuvat arvot, virheelliset merkinnät sekä mittaus- ja kalibrointivirheet voivat vaikuttaa analyyseihin.
Tiedot voivat olla monessa muodossa: CSV- tai TSV-tiedostot, JSON, Parquet tai HDF5 ovat yleisiä tallennusmuotoja. Metatiedot
Yksityisyys ja etiikka ovat keskeisiä asioita tietojoukkoja käytettäessä. Monet tietojoukot sisältävät henkilötietoja, jolloin anonymisointi, minimointi ja