visioonistransformersid
Visioonistransformersid on transformeri arhitektuurile põhinevad mudelid, mis on mõeldud visuaalsete andmete töötlemiseks. Pilt jaotatakse väikesteks tükkideks ehk patchideks (tavaliselt 16×16 pikslit). Iga tükk teisendatakse vektoriks ja lisatakse positsiooniline info; seejärel sisestatakse tükkide jada transformer-encoderisse. Seal rakendub mitmearuline self-attention, mis võimaldab igal tükkil arvestada konteksti kogu pildist. Lõpuks kasutatakse klassifitseerimise jaoks pead (MLP-peak).
Esimesed visioonistransformersid tutvustati 2020. aastal Dosovitski ja kaaslaste poolt töös "An Image is Worth 16x16 Words:
Olulised variandid ja täiustused hõlmavad Swin Transformerit, mis kasutab hierarhiat ja libistatavaid aknaid (shifted windows), vähendades
Eelised ja piirangud: visioonistransformersid pakuvad tugevat jõudlust suurte andmekoguste korral ja on paindlikud erinevate visuaalsete ülesannete
Kasutusalad hõlmavad pildiklassifikatsiooni, objektide avastamist, semantilist segmenteerimist ja video mõistmist.