Röstsyntes - Infinite Lexicon - Infinite Lexicon

Röstsyntes

Röstsyntes, eller text-till-tal (TTS), är tekniken att omvandla skriven text till artificiell tal som kan låta som en mänsklig röst. Systemen används i skärmläsare, navigationsenheter, smarta assistenter, audiounderhållning och många andra applikationer där tal behövs utan mänsklig uppläsning. Senaste åren har naturaliteten och anpassningsbarheten ökat betydligt, särskilt i flera språk inklusive svenska.

Det finns två huvudmetoder inom området. Concatenativ röstsyntes bygger på att samla och återanvända ljudsegment ur

Processen för röstsyntes innehåller flera steg: textnormalisering och språklig bearbetning, grafem- till fonem‑omvandling, prosodimodellering (till exempel

Utmaningar inkluderar att skapa naturlig och varierad prosodi, upprätthålla tydlighet över olika språk och dialekter, samt

Exempel på tillgängliga system och projekt inkluderar kommersiella tjänster som Google TTS, Amazon Polly och Microsoft

i

talaridentitet.

röstförfalskning.

tillgänglighetsnytta.

källkodsprojekt