adathalmazelkészítés
Az adathalmazelkészítés a folyamat, amelynek célja olyan adathalmaz létrehozása, amely használható gépi tanulási vagy statisztikai feladatokra. Ezt a folyamatot gyakran több adatforrásból végzik, és magában foglalja az adatok gyűjtését, tisztítását, előfeldolgozását, transzformálását és dokumentálását.
A minőség és konzisztencia érdekében a fázisok közé tartozik az adatgyűjtés és konverzió, duplikációk eltávolítása, formátum
Különösen fontos a hiányzó értékek kezelése, az outlierek azonosítása és kezelése, a kategorikus változók kódolása, és
Etikai és jogi szempontokat is figyelembe vesznek: adatok védelme, anonimizálás vagy pseudonimizálás, hozzáférés- és felhasználási jogosultságok
Végül az adathalmazt gyakran felosztják train, validációs és tesztelési mintákra, és a reprodukálhatóság érdekében verziózzák az