ordsegmentering
Orsegmentering är processen att dela en text i ord eller token. Den är en grundläggande del av många språkteknologiska system och används i uppgifter som sök, maskinöversättning och språkanalys. I språk där ordgränser inte är tydligt markerade måste algoritmer avgöra var ord börjar och slutar.
I språk med tydliga ordavgränsningar, som svenska och engelska, kan segmentering ofta göras genom att dela
I språk utan tydliga ordgränser, som kinesiska, japanska och thailändska, är segmentering betydligt mer komplex. Här
Användningsområden inkluderar förbättrad sökbarhet och informationshämtning, maskinöversättning, språklig analys och talsyntes. Segmentering utgör ofta en förebyggande
Utvärdering av ordsegmentering mäts vanligtvis med precision, recall och F1 på en korpus med guldstandardgränser. Källor