Dummykoodaus - Infinite Lexicon - Infinite Lexicon

Dummykoodaus

Dummykoodaus on tilastotieteessä ja koneoppimisessa käytetty menetelmä, jolla kategoriset muuttujat muutetaan numeeriseksi muodoksi. Tässä menetelmässä jokaisesta kategorian tasosta luodaan binäärinen indikaattorimuuttuja, eli dummy, jonka arvo on 1 sen havainnon kohdalla, joka kuuluu kyseiseen kategoriaan, ja 0 muulloin.

Jos kategorioita on k, voidaan luoda enintään k dummy-muuttujaa. Usein käytetään k−1 muuttujaa, jolloin jätetään viitemuuttuja

Sovellukset: dummykoodaus mahdollistaa kategoristen tekijöiden käytön lineaarisissa ja logistisissa malleissa sekä monissa koneoppimisen algoritmeissa. Se säilyttää

Haasteet: suurissa kardinaliteeteissa dummien määrä kasvaa nopeasti, mikä voi johtaa harvaan matriisiin ja suureen muistivaatimukseen; uuden,

Esimerkki: muuttuja väri, jonka arvot ovat punainen, sininen ja vihreä. Kun vihreä on viitekategoria, syntyvät muuttujat

Työkalut: Pythonin pandas get_dummies, scikit-learnin OneHotEncoder; R:n model.matrix tai vastaavat.

Viitekategoriaa

vaihtoehtoisesti

k

k

näkemättömän

lisäkoodauksia