Dummykoodaus
Dummykoodaus on tilastotieteessä ja koneoppimisessa käytetty menetelmä, jolla kategoriset muuttujat muutetaan numeeriseksi muodoksi. Tässä menetelmässä jokaisesta kategorian tasosta luodaan binäärinen indikaattorimuuttuja, eli dummy, jonka arvo on 1 sen havainnon kohdalla, joka kuuluu kyseiseen kategoriaan, ja 0 muulloin.
Jos kategorioita on k, voidaan luoda enintään k dummy-muuttujaa. Usein käytetään k−1 muuttujaa, jolloin jätetään viitemuuttuja
Sovellukset: dummykoodaus mahdollistaa kategoristen tekijöiden käytön lineaarisissa ja logistisissa malleissa sekä monissa koneoppimisen algoritmeissa. Se säilyttää
Haasteet: suurissa kardinaliteeteissa dummien määrä kasvaa nopeasti, mikä voi johtaa harvaan matriisiin ja suureen muistivaatimukseen; uuden,
Esimerkki: muuttuja väri, jonka arvot ovat punainen, sininen ja vihreä. Kun vihreä on viitekategoria, syntyvät muuttujat
Työkalut: Pythonin pandas get_dummies, scikit-learnin OneHotEncoder; R:n model.matrix tai vastaavat.