Röstsyntes
Röstsyntes, eller text-till-tal (TTS), är tekniken att omvandla skriven text till artificiell tal som kan låta som en mänsklig röst. Systemen används i skärmläsare, navigationsenheter, smarta assistenter, audiounderhållning och många andra applikationer där tal behövs utan mänsklig uppläsning. Senaste åren har naturaliteten och anpassningsbarheten ökat betydligt, särskilt i flera språk inklusive svenska.
Det finns två huvudmetoder inom området. Concatenativ röstsyntes bygger på att samla och återanvända ljudsegment ur
Processen för röstsyntes innehåller flera steg: textnormalisering och språklig bearbetning, grafem- till fonem‑omvandling, prosodimodellering (till exempel
Utmaningar inkluderar att skapa naturlig och varierad prosodi, upprätthålla tydlighet över olika språk och dialekter, samt
Exempel på tillgängliga system och projekt inkluderar kommersiella tjänster som Google TTS, Amazon Polly och Microsoft