transformatorbaserede
Transformatorbaserede modeller refererer til neurale netværk, der bygger på Transformer-arkitekturen, som blev introduceret i 2017 af Vaswani og kolleger og siden har domineret mange områder af kunstig intelligens, særligt naturlig sprogbehandling. Hovedideen er selvopmærksomhedsmekanismen, der gør det muligt at beregne relationer mellem alle positioner i en indgangssekvens samtidig, hvilket muliggør effektiv parallellisering og bedre håndtering af lange afhængigheder.
Et transformermodell består typisk af lag, der kan være encoder- og/eller decoderblokke. Hver blok indeholder en
Der findes forskellige variationer: encoder-only modeller som BERT, decoder-only modeller som GPT og encoder-decoder modeller som
Fordelene ved transformerbaserede modeller inkluderer evnen til at lære generelle representationer fra store mængder data, fremragende