adversarialhyökkäyksille
Adversarialhyökkäykset, tunnetaan myös nimellä "adversarial attacks" englanniksi, ovat tekniikoita, joilla manipuloidaan koneoppimismalleja, erityisesti syväoppimisverkkoja, saamaan ne tekemään virheellisiä ennusteita. Nämä hyökkäykset perustuvat siihen, että syötedataan tehdään pieniä, usein ihmiselle näkymättömiä, muutoksia. Vaikka nämä muutokset ovat hienovaraisia, ne voivat johtaa mallin merkittäviin virheisiin.
Tavoitteena on usein saada malli luokittelemaan syöte väärin. Esimerkiksi kuvantunnistusmallille voidaan syöttää kuva kissasta, mutta pienillä,
Adversarialhyökkäyksiä on olemassa useita erilaisia, ja niitä voidaan luokitella sen mukaan, miten paljon tietoa hyökkääjällä on
Tutkimus adversarialhyökkäysten torjumiseksi on aktiivista. Menetelmiä ovat muun muassa adversarial-koulutus, jossa mallia koulutetaan myös vastustajan luomilla