Transformersbaserede - Infinite Lexicon - Infinite Lexicon

Transformersbaserede

Transformersbaserede modeller er neurale netværk, der bygger på transformerarkitekturen og anvender selvopmærksomhed til at behandle sekvensdata. De trænes ofte på store tekstcorpora og finjusteres derpå for konkrete opgaver som klassificering, oversættelse eller spørgesvar.

Kernekomponenterne er lag af encoder- og/eller decoderblokke, multi-head selvopmærksomhed og feedforward-netværk, samt positionel kodning, der gør

Transformeren blev introduceret i 2017 af Vaswani et al. i papiret Attention Is All You Need og

Typiske eksempler er BERT (encoder-only), GPT-serien (decoder-only) og T5/BART (encoder-decoder). Mange sprogmodeller bygger videre på denne

Træningen sker ofte i to faser: foruddannelse (pretraining) med selv-overvågede mål som maskeret sprogmodellering eller causal

Fordelene inkluderer stærk ydeevne på mange opgaver og god skalerbarhed med data og compute samt evnen til

Etiske overvejelser ved transformersbaserede modeller omfatter bias, datakvalitet, data-privatliv, miljøpåvirkning og risiko for misbrug. Forskning i

rækkefølgelighed

encoder-decoder-modeller

i

sprogbehandling

parallelisering

langdistanceafhængigheder.

beregningskraft.

sprogmodellering,

klassificering,

maskinoversættelse,

tekstoprettelse

hukommelsesbudgetter,

gennemsigtighed.