visioonistransformersid - Infinite Lexicon - Infinite Lexicon

visioonistransformersid

Visioonistransformersid on transformeri arhitektuurile põhinevad mudelid, mis on mõeldud visuaalsete andmete töötlemiseks. Pilt jaotatakse väikesteks tükkideks ehk patchideks (tavaliselt 16×16 pikslit). Iga tükk teisendatakse vektoriks ja lisatakse positsiooniline info; seejärel sisestatakse tükkide jada transformer-encoderisse. Seal rakendub mitmearuline self-attention, mis võimaldab igal tükkil arvestada konteksti kogu pildist. Lõpuks kasutatakse klassifitseerimise jaoks pead (MLP-peak).

Esimesed visioonistransformersid tutvustati 2020. aastal Dosovitski ja kaaslaste poolt töös "An Image is Worth 16x16 Words:

Olulised variandid ja täiustused hõlmavad Swin Transformerit, mis kasutab hierarhiat ja libistatavaid aknaid (shifted windows), vähendades

Eelised ja piirangud: visioonistransformersid pakuvad tugevat jõudlust suurte andmekoguste korral ja on paindlikud erinevate visuaalsete ülesannete

Kasutusalad hõlmavad pildiklassifikatsiooni, objektide avastamist, semantilist segmenteerimist ja video mõistmist.

konvolutsioonipõhiseid

arvutusressurssidele,

(Data-efficient

distillatsiooni

märkimisväärsed

märkimisväärset

arvutusressurssi

distillatsiooni

õpetamismeetodeid.