datapistejoukon
Datapistejoukko on tilastotieteen ja koneoppimisen peruskäsite, jolla tarkoitetaan havaintojen tai mittaustulosten joukkoa. Jokainen datapiste on n‑tuotoinen tuple (x1, x2, ..., xn), jossa kukin xi kuvaa ominaisuutta tai muuttujaa. Datapistejoukko voi olla finite tai infinite; käytännössä se on finite otos eli D = { (x_i, y_i) } i = 1..m, jossa x_i on piirteet ja y_i on vastaus tai luokka. Jos kyse on pelkästään piirteistä, y voi puuttua ja D voi edustaa pelkästään havaintoja.
Esitys: Piirteet voidaan esittää ominaisuusvektorina x_i ∈ R^n; data voidaan tallentaa matriisina X ∈ R^{m×n} ja vastineet y
Käyttö ja laatu: Datapistejoukko toimii raaka-aineena tilastollisissa malleissa ja päätöksentekoprosesseissa. Sen laatu ja representatiivisuus vaikuttavat mallien
Esimerkit: Kliininen potilastutkimus, jossa jokainen datapiste kuvaa potilaan ominaisuuksia ja tulosta; talousdata, jossa datapisteet ovat päivittäisiä
Termi: Käytetään usein sanaa dataset, joka suomeksi voidaan kääntää datapistejoukoksi tai datatietojoukoksi; D merkitsee datapistejoukkoa. Jokainen