podwordowe

Podwordowe odnosi się do klas reprezentacji i technik przetwarzania języka naturalnego, które rozbijają tekst na jednostki mniejsze niż całe wyrazy. Celem podejścia podwordowego jest efektywne reprezentowanie słownictwa, redukcja problemu nieznanych wyrazów oraz lepsze odwzorowanie morfologii w językach o bogatej fleksji.

Najbardziej rozpowszechnione metody podwordowe to Byte-Pair Encoding (BPE), WordPiece oraz Unigram, używany w różnych wariantach przez

Zastosowania obejmują modele językowe, tłumaczenie maszynowe, klasyfikację tekstu oraz wyszukiwanie informacji. Dzięki zdolności do łączenia subwordów,

Główne korzyści to redukcja liczby nieznanych wyrazów (OOV), możliwość tworzenia słownika o stałej wielkości oraz lepsza

Historia rozwoju obejmuje popularizację podwordowych reprezentacji w 2010–2010‑ych latach wraz z pracami nad BPE, WordPiece i

W

z

w

i

generalizację.

w

morphologicznie

w

i

nieintuicyjność

i

interpretowalność

poszczególnych

w

w