podwordowe
Podwordowe odnosi się do klas reprezentacji i technik przetwarzania języka naturalnego, które rozbijają tekst na jednostki mniejsze niż całe wyrazy. Celem podejścia podwordowego jest efektywne reprezentowanie słownictwa, redukcja problemu nieznanych wyrazów oraz lepsze odwzorowanie morfologii w językach o bogatej fleksji.
Najbardziej rozpowszechnione metody podwordowe to Byte-Pair Encoding (BPE), WordPiece oraz Unigram, używany w różnych wariantach przez
Zastosowania obejmują modele językowe, tłumaczenie maszynowe, klasyfikację tekstu oraz wyszukiwanie informacji. Dzięki zdolności do łączenia subwordów,
Główne korzyści to redukcja liczby nieznanych wyrazów (OOV), możliwość tworzenia słownika o stałej wielkości oraz lepsza
Historia rozwoju obejmuje popularizację podwordowych reprezentacji w 2010–2010‑ych latach wraz z pracami nad BPE, WordPiece i