Transformersbaserede
Transformersbaserede modeller er neurale netværk, der bygger på transformerarkitekturen og anvender selvopmærksomhed til at behandle sekvensdata. De trænes ofte på store tekstcorpora og finjusteres derpå for konkrete opgaver som klassificering, oversættelse eller spørgesvar.
Kernekomponenterne er lag af encoder- og/eller decoderblokke, multi-head selvopmærksomhed og feedforward-netværk, samt positionel kodning, der gør
Transformeren blev introduceret i 2017 af Vaswani et al. i papiret Attention Is All You Need og
Typiske eksempler er BERT (encoder-only), GPT-serien (decoder-only) og T5/BART (encoder-decoder). Mange sprogmodeller bygger videre på denne
Træningen sker ofte i to faser: foruddannelse (pretraining) med selv-overvågede mål som maskeret sprogmodellering eller causal
Fordelene inkluderer stærk ydeevne på mange opgaver og god skalerbarhed med data og compute samt evnen til
Etiske overvejelser ved transformersbaserede modeller omfatter bias, datakvalitet, data-privatliv, miljøpåvirkning og risiko for misbrug. Forskning i