dummykoodauksen
Dummykoodaus on tilastollinen menetelmä, jolla kategoriset muuttujat muunnetaan numeeriseen muotoon tilastollisten mallien käyttöä varten. Yleisin muoto on dummykoodaus, jossa jokaisesta kategorian arvosta luodaan binääri-ilmaisinmuuttuja. Kun muuttujalla on k luokkaa, käytetään tavallisesti k−1 dummy-muuttujaa ja viitekategoria jätetään ilman omaa muuttujaa, jotta malli pysyy estimoitavana ilman täydellistä monimutkaisuutta.
Esimerkkina, muuttuja väri voi olla punainen, vihreä ja sininen. Valitsemalla sinisen viitekategoriaksi luodaan kaksi dummy-muuttujaa: punainen
Hyödyt ja rajoitukset: Dummykoodaus mahdollistaa kategorisen muuttujan käytön lineaarisissa ja monimutkaisemmissa malleissa sekä tekee coeffienttien tulkinnasta
Käytännössä dummykoodaus toteutetaan useimmissa tilastollisissa ohjelmistoissa automaattisesti. Esimerkkejä ovat R:n mallikaavat ja Pythonin pandas-get_dummies tai patsy-formulaatiot,
Yhteenveto: Dummykoodaus on keskeinen tekniikka, kun käsitellään kategorisia muuttujia tilastollisissa malleissa, tarjoten yksinkertaisen ja tulkittavan tavan