BERTarkitekturen - Infinite Lexicon - Infinite Lexicon

BERTarkitekturen

BERT-arkitekturen refererer til den transformerbaserte språkforståelsesmodellen som Google AI Language introduserte i 2018. Den bruker en dyp Transformer-enkoder og kjennetegnes av bidireksjonal kontekstforståelse, noe som gir bedre språkrepresentasjoner for mange oppgaver enn tidligere ensrettede modeller.

Inndata representeres av slike embeddings: token-, segment- og posisjonsembeddings, kombinert med spesialtokenene [CLS] og [SEP]. Nettverket

Pre-trening består av to oppgaver: Maskert språkmodellering (MLM) og neste setningsforbindelse (NSP). Ved MLM masker 15%

Modellvariantene BERT-base og BERT-large skiller seg i størrelse: base har 12 lag, 768 skjulte enheter og 12

Etter foruttrening kan BERT fintunes på ulike oppgaver ved å legge til en oppgave-spesifikk utgangslayer og

Begrensninger inkluderer høyt beregningsbehov, avhengighet av treningsdata og begrensning i sekvenslengde til 512 token. Variantenes etterfølgere,

Transformer-enkodere

self-attention,

feedforward-nettverk

lagnormalisering,

residualforbindelser

i

i

Apache-2.0-lisens.

i

treningsprosedyrer