Szófajazonosítás
Szófajazonosítás, vagy part-of-speech tagging, a szövegben minden szóhoz vagy tokenhez hozzárendeli a szófajtát. A leggyakoribb kategóriák közé tartoznak a főnév, ige, melléknév, határozószó, névmás, előljáró, kötőszó és számnév. A feladat célja, hogy egy tagelt korpusz későbbi feldolgozásra legyen alkalmas, például mondatfák, szintaktikai elemzések vagy fordítás előkészítésére.
Általában egységes tagrendszert használnak, például a Universal Dependencies (UD) jelöléseit. A szófaji kategóriákhoz gyakran morfológiai tulajdonságokat
Módszertanilag két fő irányt különböztetnek meg. A szabályalapú rendszerek kézikönyvi szabályokra és szótárakra támaszkodnak, míg a
Kihívások közé tartozik a kontextusfüggő disambiguáció, a homonímia, a komplex ragozás és az összetett szavak kezelése,