BERTarkitekturen
BERT-arkitekturen refererer til den transformerbaserte språkforståelsesmodellen som Google AI Language introduserte i 2018. Den bruker en dyp Transformer-enkoder og kjennetegnes av bidireksjonal kontekstforståelse, noe som gir bedre språkrepresentasjoner for mange oppgaver enn tidligere ensrettede modeller.
Inndata representeres av slike embeddings: token-, segment- og posisjonsembeddings, kombinert med spesialtokenene [CLS] og [SEP]. Nettverket
Pre-trening består av to oppgaver: Maskert språkmodellering (MLM) og neste setningsforbindelse (NSP). Ved MLM masker 15%
Modellvariantene BERT-base og BERT-large skiller seg i størrelse: base har 12 lag, 768 skjulte enheter og 12
Etter foruttrening kan BERT fintunes på ulike oppgaver ved å legge til en oppgave-spesifikk utgangslayer og
Begrensninger inkluderer høyt beregningsbehov, avhengighet av treningsdata og begrensning i sekvenslengde til 512 token. Variantenes etterfølgere,