Adatsorkiválasztás
Adatsorkiválasztás a folyamat, amely során egy adathalmazból vagy adatbázisból kiválunk egy vagy több sort a további elemzések, modellezés vagy tisztítás céljából. A kiválasztás történhet feltételek alapján vagy mintavételi eljárásként; a megközelítés alapja a vizsgált cél és a kívánt reprezentativitás.
Feltételes kiválasztás például SQL-ben vagy Pandas-ben: lekérdezéssel vagy boolean indexeléssel adatsorok kiválasztása a megfelelőségi feltételek szerint.
Mintavételi megközelítések közé tartozik a véletlenszerű kiválasztás, a rétegzett mintavétel, a szisztematikus és a klaszter mintavétel.
Fontos szempontok: torzítás elkerülése, hiányzó adatok kezelése, adat-leakage elkerülése a modellezési fázisban, mintavételi arány megadása és
Alkalmazások közé tartozik az adatok előfeldolgozása, feltáró adatelemzés, modellépítés előkészítése, kereszt-ellenőrzés és alapvető statisztikai elemzések. Általában